1. ๊ฐ์ฒด ํƒ์ง€ ์†Œ๊ฐœยถ

Open In Colab

๊ฐ์ฒด ํƒ์ง€(Object Detection)๋Š” ์ปดํ“จํ„ฐ ๋น„์ „ ๊ธฐ์ˆ ์˜ ์„ธ๋ถ€ ๋ถ„์•ผ์ค‘ ํ•˜๋‚˜๋กœ์จ ์ฃผ์–ด์ง„ ์ด๋ฏธ์ง€๋‚ด ์‚ฌ์šฉ์ž๊ฐ€ ๊ด€์‹ฌ ์žˆ๋Š” ๊ฐ์ฒด๋ฅผ ํƒ์ง€ํ•˜๋Š” ๊ธฐ์ˆ ์ž…๋‹ˆ๋‹ค.

์ธ๊ณต์ง€๋Šฅ ๋ชจ๋ธ์ด ๊ทธ๋ฆผ 1-1 ์ขŒ์ธก์— ์žˆ๋Š” ๊ฐ•์•„์ง€ ์‚ฌ์ง„์„ ๊ฐ•์•„์ง€๋ผ๊ณ  ํŒ๋ณ„ํ•œ๋‹ค๋ฉด ํ•ด๋‹น ๋ชจ๋ธ์€ ์ด๋ฏธ์ง€ ๋ถ„๋ฅ˜ ๋ชจ๋ธ ์ž…๋‹ˆ๋‹ค. ํ•˜์ง€๋งŒ ์šฐ์ธก ์‚ฌ์ง„ ์ฒ˜๋Ÿผ ๋ฌผ์ฒด๊ฐ€ ์žˆ๋Š” ์œ„์น˜๋ฅผ ํƒ์ง€ํ•จ๊ณผ ๋™์‹œ์— ํ•ด๋‹น ๋ฌผ์ฒด๊ฐ€ ๊ฐ•์•„์ง€๋ผ๊ณ  ๋ถ„๋ฅ˜ ํ•œ๋‹ค๋ฉด ํ•ด๋‹น ๋ชจ๋ธ์€ ๊ฐ์ฒด ํƒ์ง€ ๋ชจ๋ธ์ž…๋‹ˆ๋‹ค.

  • ๊ทธ๋ฆผ 1-1 ์ด๋ฏธ์ง€ ๋ถ„๋ฅ˜ ๋ชจ๋ธ๊ณผ ๊ฐ์ฒด ํƒ์ง€ ๋ชจ๋ธ ๋น„๊ต (์ถœ์ฒ˜: https://www.pexels.com/search/dog/)

๊ฐ์ฒด ํƒ์ง€ ๋ชจ๋ธ์€ ์—ฌ๋Ÿฌ ๋ถ„์•ผ์—์„œ ํ™œ์šฉ ๊ฐ€๋Šฅํ•ฉ๋‹ˆ๋‹ค. ๊ฐ€์žฅ ๋Œ€ํ‘œ์ ์ธ ํ™œ์šฉ ์‚ฌ๋ก€๋Š” ์ž์œจ ์ฃผํ–‰ ์ž๋™์ฐจ์ž…๋‹ˆ๋‹ค. ์ž์œจ ์ฃผํ–‰ ์ž๋™์ฐจ๋ฅผ ๋งŒ๋“ค๊ธฐ ์œ„ํ•ด์„œ๋Š” ์ปดํ“จํ„ฐ๊ฐ€ ์Šค์Šค๋กœ ์ฃผ๋ณ€ ์‚ฌ๋ฌผ์„ ์ธ์‹ํ•  ์ˆ˜ ์žˆ์–ด์•ผ ํ•ฉ๋‹ˆ๋‹ค. ์ •์ง€ ์‹ ํ˜ธ๊ฐ€ ์žˆ์„ ๋•Œ ์†๋„๋ฅผ ์ค„์ด๊ณ  ์ดˆ๋ก๋ถˆ์ด ์ผœ์ง€๋ฉด ๋‹ค์‹œ ์ฃผํ–‰์„ ์‹œ์ž‘ํ•˜๋Š” ๋“ฑ ์ฃผ๋ณ€ ํ™˜๊ฒฝ๊ณผ ์ƒํ˜ธ์ž‘์šฉ์ด ํ•„์š”ํ•œ ์ž์œจ ์ฃผํ–‰ ์ž๋™์ฐจ์— ๊ฐ์ฒด ํƒ์ง€ ๊ธฐ์ˆ ์ด ์‚ฌ์šฉ ๋ฉ๋‹ˆ๋‹ค.

๊ฐ์ฒด ํƒ์ง€ ๊ธฐ์ˆ ์€ ๋ณด์•ˆ ๋ถ„์•ผ์—์„œ ํšจ์œจ์ ์ธ ์ž์› ๊ด€๋ฆฌ์—๋„ ์‚ฌ์šฉ๋ฉ๋‹ˆ๋‹ค. ์ผ๋ฐ˜์ ์œผ๋กœ CCTV๋Š” ์‰ฌ์ง€ ์•Š๊ณ  ๊ธฐ๋ก์ด ๋˜๊ธฐ ๋•Œ๋ฌธ์— ๋ฐฉ๋Œ€ํ•œ ์–‘์˜ ๋ฉ”๋ชจ๋ฆฌ๊ฐ€ ํ•„์š”ํ•ฉ๋‹ˆ๋‹ค. ํ—ˆ๋‚˜ ๊ฐ์ฒด ํƒ์ง€ ๊ธฐ์ˆ ๊ณผ ๊ฒฐํ•ฉํ•˜์—ฌ ํŠน์ • ์‚ฌ๋ฌผ์ด ํƒ์ง€ ๋˜์—ˆ์„ ๋•Œ๋งŒ ๊ธฐ๋ก์„ ์‹œ์ž‘ํ•˜๋ฉด ๋ฉ”๋ชจ๋ฆฌ๋ฅผ ํšจ์œจ์ ์œผ๋กœ ์‚ฌ์šฉํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.

์ด๋ฒˆ ์žฅ์—์„œ๋Š” ๋งˆ์Šคํฌ๋ฅผ ํƒ์ง€ํ•˜๋Š” ๊ฐ์ฒด ํƒ์ง€ ๋ชจ๋ธ์„ ๊ตฌ์ถ•ํ•ด๋ณด๊ฒ ์Šต๋‹ˆ๋‹ค. ์ฃผ์–ด์ง„ ์ด๋ฏธ์ง€๋ฅผ ์ž…๋ ฅ์„ ๋ฐ›์•˜์„ ๋•Œ ์–ผ๊ตด ์œ„์น˜๋ฅผ ํƒ์ง€ํ•˜๊ณ , ์–ผ๊ตด์— ๋งˆ์Šคํฌ๊ฐ€ ์”Œ์—ฌ์ ธ ์žˆ๋Š”์ง€๋ฅผ ํ™•์ธํ•˜๋Š” ๋ชจ๋ธ์„ ๊ตฌ์ถ•ํ•ด๋ณผ ๊ฒƒ์ž…๋‹ˆ๋‹ค.

1.1. ๋ฐ”์šด๋”ฉ ๋ฐ•์Šคยถ

๊ฐ์ฒด ํƒ์ง€ ๋ชจ๋ธ์„ ๋งŒ๋“ค๊ธฐ์— ์•ž์„œ, ์šฐ์„ ์‹œ ๋˜์–ด์•ผ ํ•  ๊ณผ์ •์€ ๋ฐ”์šด๋”ฉ ๋ฐ•์Šค๋ฅผ ๋งŒ๋“œ๋Š” ๊ฒƒ ์ž…๋‹ˆ๋‹ค. ๊ฐ์ฒด ํƒ์ง€ ๋ชจ๋ธ์— ์‚ฌ์šฉ๋˜๋Š” ๋ฐ์ดํ„ฐ์˜ ํฌ๊ธฐ๊ฐ€ ๋ฐฉ๋Œ€ํ•˜๊ธฐ ๋•Œ๋ฌธ์—, ๋ฐ”์šด๋”ฉ ๋ฐ•์Šค๋ฅผ ํ†ตํ•˜์—ฌ ๊ฐ์ฒด๋ฅผ ์˜ฌ๋ฐ”๋ฅด๊ฒŒ ํƒ์ง€ํ•˜๊ณ  ๋”ฅ๋Ÿฌ๋‹ ๊ณผ์ •์—์„œ ๋ฐ”์šด๋”ฉ ๋ฐ•์Šค ์˜์—ญ๋งŒ ๋Œ€์ƒ์ด ๋˜๊ธฐ ๋•Œ๋ฌธ์—, ๋”ฅ๋Ÿฌ๋‹์„ ํšจ์œจ์ ์œผ๋กœ ์ˆ˜ํ–‰ํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.

๋ฐ”์šด๋”ฉ ๋ฐ•์Šค๋Š” ํŠน์ • ์‚ฌ๋ฌผ์„ ํƒ์ง€ํ•˜์—ฌ ๋ชจ๋ธ์„ ํšจ์œจ์ ์œผ๋กœ ํ•™์Šต ํ•  ์ˆ˜ ์žˆ๋„๋ก ๋„์›€์„ ์ฃผ๋Š” ๋ฐฉ๋ฒ•์ž…๋‹ˆ๋‹ค. ๊ฐ์ฒด ํƒ์ง€ ๋ชจ๋ธ์—์„œ ๋ฐ”์šด๋”ฉ ๋ฐ•์Šค๋Š” ํƒ€๊ฒŸ ์œ„์น˜๋ฅผ ํŠน์ •ํ•˜๊ธฐ ์œ„ํ•ด ์‚ฌ์šฉ๋ฉ๋‹ˆ๋‹ค. ํƒ€๊ฒŸ ์œ„์น˜๋ฅผ X์™€ Y์ถ•์„ ์ด์šฉํ•˜์—ฌ ์‚ฌ๊ฐํ˜•์œผ๋กœ ํ‘œํ˜„ํ•ฉ๋‹ˆ๋‹ค. ์˜ˆ๋ฅผ ๋“ค์–ด, ๋ฐ”์šด๋”ฉ ๋ฐ•์Šค ๊ฐ’์€ (X ์ตœ์†Œ๊ฐ’, Y ์ตœ์†Œ๊ฐ’, X ์ตœ๋Œ€๊ฐ’, Y ์ตœ๋Œ€๊ฐ’)์œผ๋กœ ํ‘œํ˜„์ด ๋ฉ๋‹ˆ๋‹ค.

๊ทธ๋ฆผ 1-2์™€ ๊ฐ™์ด X์™€ Y์˜ ์ตœ์†Œ๊ฐ’๊ณผ ์ตœ๋Œ€๊ฐ’ ์‚ฌ์ด์˜ ๋ฉด์ ์„ ๋ฐ”์šด๋”ฉ ๋ฐ•์Šค ์˜์—ญ์œผ๋กœ ์žก์Šต๋‹ˆ๋‹ค. ํ•˜์ง€๋งŒ, ์œ„์˜ X, Y ๊ฐ’์€ ํ”ฝ์…€๊ฐ’์œผ๋กœ ํšจ์œจ์ ์ธ ์—ฐ์‚ฐ์„ ์œ„ํ•ด์„œ๋Š” ์ตœ๋Œ€๊ฐ’ 1๋กœ ๋ณ€ํ™˜์„ ํ•ด์ค˜์•ผ ํ•ฉ๋‹ˆ๋‹ค.

๊ทธ๋ฆผ 1-3์˜ X, Y ๊ฐ’์€ ๊ฐ๊ฐ X์˜ ์ตœ๋Œ€๊ฐ’ 971, Y์˜ ์ตœ๋Œ€๊ฐ’ 547์„ ๋‚˜๋ˆˆ ๊ฐ’์ž…๋‹ˆ๋‹ค. X์˜ ์ตœ์†Œ๊ฐ’์€ 640์—์„œ 971์„ ๋‚˜๋ˆ„๋ฉด 0.66์ด ๋˜๋Š” ๊ฒƒ์ž…๋‹ˆ๋‹ค. ์ด๋ ‡๊ฒŒ ๋ถ„์ˆ˜ํ™”๋Š” ํšจ์œจ์ ์ธ ์—ฐ์‚ฐ์„ ์œ„ํ•œ ๊ณผ์ •์ด๋ผ๊ณ  ๋ณผ ์ˆ˜ ์žˆ์ง€๋งŒ, ํ•„์ˆ˜์ ์ธ ๊ณผ์ •์€ ์•„๋‹™๋‹ˆ๋‹ค.

๋ฐ์ดํ„ฐ์…‹์— ๋”ฐ๋ผ, ๋ฐ”์šด๋”ฉ ๋ฐ•์Šค ๊ฐ’์ด ๋ฉ”ํƒ€๋ฐ์ดํ„ฐ๋กœ ๋”ฐ๋กœ ํฌํ•จ๋œ ๊ฒฝ์šฐ๊ฐ€ ์žˆ์œผ๋ฉฐ, ๋ฉ”ํƒ€๋ฐ์ดํ„ฐ๊ฐ€ ์—†์„ ๊ฒฝ์šฐ ๋”ฐ๋กœ ์ฝ”๋“œ ๊ตฌํ˜„์„ ํ†ตํ•ด ๋ฐ”์šด๋”ฉ ๋ฐ•์Šค ์ง€์ •์ด ๊ฐ€๋Šฅํ•ฉ๋‹ˆ๋‹ค. ๋ณธ ํŠœํ† ๋ฆฌ์–ผ์—์„œ ์‚ฌ์šฉํ•˜๋Š” Face Mask Detection ๋ฐ์ดํ„ฐ์…‹์—๋Š” ๋ฐ”์šด๋”ฉ ๋ฐ•์Šค๊ฐ€ ํ•จ๊ป˜ ์ œ๊ณต๋˜๋ฉฐ, 2์žฅ์—์„œ ๋ฐ”์šด๋”ฉ ๋ฐ•์Šค ๋„์‹ํ™”๋ฅผ ์ง„ํ–‰ํ•ด๋ณด๊ฒ ์Šต๋‹ˆ๋‹ค.

1.2. ๋ชจ๋ธ ํ˜•ํƒœยถ

๊ฐ์ฒด ํƒ์ง€ ๋ชจ๋ธ์€ ํฌ๊ฒŒ One-Stage ๋ชจ๋ธ๊ณผ Two-Stage ๋ชจ๋ธ๋กœ ๊ตฌ๋ถ„ํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค. ๊ฐ๊ฐ์˜ ๋ชจ๋ธ ํ˜•ํƒœ์— ๋Œ€ํ•ด์„œ ์•Œ์•„๋ณด๋„๋ก ํ•˜๊ฒ ์Šต๋‹ˆ๋‹ค.

  • ๊ทธ๋ฆผ 1-4 ๊ฐ์ฒด ํƒ์ง€ ์•Œ๊ณ ๋ฆฌ์ฆ˜ ํƒ€์ž„๋ผ์ธ (์ถœ์ฒ˜: Zou et al. 2019. Object Detection in 20 Years: A Survey)

๊ทธ๋ฆผ 1-4๋Š” ๊ฐ์ฒด ํƒ์ง€ ๋ชจ๋ธ์˜ ๊ณ„๋ณด๋„๋ฅผ ๋‚˜ํƒ€๋‚ด๊ณ  ์žˆ์Šต๋‹ˆ๋‹ค. 2012๋…„ ์ดํ›„ ๋“ฑ์žฅํ•œ ๋”ฅ๋Ÿฌ๋‹ ๊ธฐ๋ฐ˜์˜ ๊ฐ์ฒด ํƒ์ง€ ๋ชจ๋ธ ์ข…๋ฅ˜๋Š” One-Stage Detector, Two-Stage Detector๋กœ ๋‚˜๋ˆŒ ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค. ๋‘ ์ข…๋ฅ˜์˜ ํ๋ฆ„์„ ์ดํ•ดํ•˜๊ธฐ ์œ„ํ•ด์„  Classification๊ณผ Region Proposal์˜ ๊ฐœ๋…์„ ์ดํ•ดํ•ด์•ผ ํ•ฉ๋‹ˆ๋‹ค. Classification์€ ํŠน์ • ๋ฌผ์ฒด์— ๋Œ€ํ•ด ์–ด๋–ค ๋ฌผ์ฒด์ธ์ง€ ๋ถ„๋ฅ˜๋ฅผ ํ•˜๋Š” ๊ฒƒ์ด๊ณ , Region Proposal์€ ๋ฌผ์ฒด๊ฐ€ ์žˆ์„๋งŒํ•œ ์˜์—ญ์„ ๋น ๋ฅด๊ฒŒ ์ฐพ์•„๋‚ด๋Š” ์•Œ๊ณ ๋ฆฌ์ฆ˜ ์ž…๋‹ˆ๋‹ค.

Two-Stage Detector์€ ๊ฐ์ฒด๋ฅผ ๊ฒ€์ถœํ•˜๋Š” ์ •ํ™•๋„ ์ธก๋ฉด์—์„œ๋Š” ์ข‹์€ ์„ฑ๋Šฅ์„ ๋ƒˆ์ง€๋งŒ, ์˜ˆ์ธก ์†๋„๊ฐ€ ๋А๋ ค ์‹ค์‹œ๊ฐ„ ํƒ์ง€์—๋Š” ์ œํ•œ๋์Šต๋‹ˆ๋‹ค. ์ด๋Ÿฌํ•œ ์†๋„ ๋ฌธ์ œ๋ฅผ ํ•ด๊ฒฐํ•˜๊ธฐ ์œ„ํ•ด Classification๊ณผ Region Propsal์„ ๋™์‹œ์— ํ•˜๋Š” One-Stage Detector๊ฐ€ ์ œ์•ˆ๋˜์—ˆ์Šต๋‹ˆ๋‹ค. ๋‹ค์Œ ์ ˆ์—์„œ One-Stage Detector์™€ Two-Stage Detector์˜ ๊ตฌ์กฐ๋„๋ฅผ ํ™•์ธํ•ด๋ณด๋„๋ก ํ•˜๊ฒ ์Šต๋‹ˆ๋‹ค.

1.2.1. One-Stage Detectorยถ

One-stage Detector๋Š” Classification, Regional Proposal์„ ๋™์‹œ์— ์ˆ˜ํ–‰ํ•˜์—ฌ ๊ฒฐ๊ณผ๋ฅผ ์–ป๋Š” ๋ฐฉ๋ฒ•์ž…๋‹ˆ๋‹ค. ๊ทธ๋ฆผ 1-5์™€ ๊ฐ™์ด ์ด๋ฏธ์ง€๋ฅผ ๋ชจ๋ธ์— ์ž…๋ ฅ ํ›„, Conv Layer๋ฅผ ์‚ฌ์šฉํ•˜์—ฌ ์ด๋ฏธ์ง€ ํŠน์ง•์„ ์ถ”์ถœํ•ฉ๋‹ˆ๋‹ค.

1.2.2. Two-Stage Detectorยถ

Two-stage Detector๋Š” Classification, Regional Proposal์„ ์ˆœ์ฐจ์ ์œผ๋กœ ์ˆ˜ํ–‰ํ•˜์—ฌ ๊ฒฐ๊ณผ๋ฅผ ์–ป๋Š” ๋ฐฉ๋ฒ•์ž…๋‹ˆ๋‹ค. ๊ทธ๋ฆผ 1-6๊ณผ ๊ฐ™์ด Region Proposal๊ณผ Classification์„ ์ˆœ์ฐจ์ ์œผ๋กœ ์‹คํ–‰ํ•˜๋Š” ๊ฒƒ์„ ์•Œ ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.

๊ฒฐ๊ณผ์ ์œผ๋กœ One-Stage Detector๋Š” ๋น„๊ต์  ๋น ๋ฅด์ง€๋งŒ ์ •ํ™•๋„๊ฐ€ ๋‚ฎ๊ณ , Two-Stage Detector๋Š” ๋น„๊ต์  ๋А๋ฆฌ์ง€๋งŒ ์ •ํ™•๋„๊ฐ€ ๋†’์Šต๋‹ˆ๋‹ค.

1.3. ๋ชจ๋ธ ๊ตฌ์กฐยถ

One-Stage Detector์™€ Two-stage Detector ๋ณ„๋กœ ์—ฌ๋Ÿฌ ๊ตฌ์กฐ๊ฐ€ ์กด์žฌํ•ฉ๋‹ˆ๋‹ค. R-CNN, Fast R-CNN, Faster R-CNN์€ Two-Stage Detector์ด๋ฉฐ YOLO, SSD, RetinaNet์€ One-Stage Detector์ž…๋‹ˆ๋‹ค. ๊ฐ๊ฐ์˜ ๋ชจ๋ธ ๊ตฌ์กฐ ํŠน์„ฑ์— ๋Œ€ํ•ด ์•Œ์•„๋ณด๋„๋ก ํ•˜๊ฒ ์Šต๋‹ˆ๋‹ค.

1.3.1. R-CNNยถ

  • ๊ทธ๋ฆผ 1-8 R-CNN ๊ตฌ์กฐ (์ถœ์ฒ˜: Girshick et al. 2014. Rich feature gierarchies for accurate object detection and semantic segmentation)

R-CNN์€ Selective Search๋ฅผ ์ด์šฉํ•ด ์ด๋ฏธ์ง€์— ๋Œ€ํ•œ ํ›„๋ณด์˜์—ญ(Region Proposal)์„ ์ƒ์„ฑํ•ฉ๋‹ˆ๋‹ค. ์ƒ์„ฑ๋œ ๊ฐ ํ›„๋ณด์˜์—ญ์„ ๊ณ ์ •๋œ ํฌ๊ธฐ๋กœ wrappingํ•˜์—ฌ CNN์˜ input์œผ๋กœ ์‚ฌ์šฉํ•ฉ๋‹ˆ๋‹ค. CNN์—์„œ ๋‚˜์˜จ Feature map์œผ๋กœ SVM์„ ํ†ตํ•ด ๋ถ„๋ฅ˜, Regressor์„ ํ†ตํ•ด Bounding-box๋ฅผ ์กฐ์ •ํ•ฉ๋‹ˆ๋‹ค. ๊ฐ•์ œ๋กœ ํฌ๊ธฐ๋ฅผ ๋งž์ถ”๊ธฐ ์œ„ํ•œ wrapping์œผ๋กœ ์ด๋ฏธ์ง€์˜ ๋ณ€ํ˜•์ด๋‚˜ ์†์‹ค์ด ์ผ์–ด๋‚˜๊ณ  ํ›„๋ณด์˜์—ญ๋งŒํผ CNN์„ ๋Œ๋ ค์•ผํ•˜ํ•˜๊ธฐ ๋•Œ๋ฌธ์— ํฐ ์ €์žฅ๊ณต๊ฐ„์„ ์š”๊ตฌํ•˜๊ณ  ๋А๋ฆฌ๋‹ค๋Š” ๋‹จ์ ์ด ์žˆ์Šต๋‹ˆ๋‹ค.

1.3.2. Fast R-CNNยถ

  • ๊ทธ๋ฆผ 1-9 Fast R-CNN ๊ตฌ์กฐ (์ถœ์ฒ˜: Girshick. ICCV 2015. Fast R-CNN)

๊ฐ ํ›„๋ณด์˜์—ญ์— CNN์„ ์ ์šฉํ•˜๋Š” R-CNN๊ณผ ๋‹ฌ๋ฆฌ ์ด๋ฏธ์ง€ ์ „์ฒด์— CNN์„ ์ ์šฉํ•˜์—ฌ ์ƒ์„ฑ๋œ Feature map์—์„œ ํ›„๋ณด์˜์—ญ์„ ์ƒ์„ฑํ•ฉ๋‹ˆ๋‹ค. ์ƒ์„ฑ๋œ ํ›„๋ณด์˜์—ญ์€ RoI Pooling์„ ํ†ตํ•ด ๊ณ ์ • ์‚ฌ์ด์ฆˆ์˜ Feature vector๋กœ ์ถ”์ถœํ•ฉ๋‹ˆ๋‹ค. Feature vector์— FC layer๋ฅผ ๊ฑฐ์ณ Softmax๋ฅผ ํ†ตํ•ด ๋ถ„๋ฅ˜, Regressor๋ฅผ ํ†ตํ•ด Bounding-box๋ฅผ ์กฐ์ •ํ•ฉ๋‹ˆ๋‹ค.

1.3.3. Faster R-CNNยถ

  • ๊ทธ๋ฆผ 1-10 Faster R-CNN ๊ตฌ์กฐ (์ถœ์ฒ˜: Ren et al. 2016. Faster R-CNN: Towards Real-Time Object Detection with Region Proposal Networks)

Selective Search ๋ถ€๋ถ„์„ ๋”ฅ๋Ÿฌ๋‹์œผ๋กœ ๋ฐ”๊พผ Region Proposal Network(RPN)์„ ์‚ฌ์šฉํ•ฉ๋‹ˆ๋‹ค. RPN์€ Feature map์—์„œ CNN ์—ฐ์‚ฐ์‹œ sliding-window๊ฐ€ ์ฐ์€ ์ง€์ ๋งˆ๋‹ค Anchor-box๋กœ ํ›„๋ณด์˜์—ญ์„ ์˜ˆ์ธกํ•ฉ๋‹ˆ๋‹ค. Anchor-box๋ž€ ๋ฏธ๋ฆฌ ์ง€์ •ํ•ด๋†“์€ ์—ฌ๋Ÿฌ ๊ฐœ์˜ ๋น„์œจ๊ณผ ํฌ๊ธฐ์˜ Bounding-box์ž…๋‹ˆ๋‹ค. RPN์—์„œ ์–ป์€ ํ›„๋ณด์˜์—ญ์„ IoU์ˆœ์œผ๋กœ ์ •๋ ฌํ•˜์—ฌ Non-Maximum Suppression(NMS) ์•Œ๊ณ ๋ฆฌ์ฆ˜์„ ํ†ตํ•ด ์ตœ์ข… ํ›„๋ณด์˜์—ญ์„ ์„ ํƒํ•ฉ๋‹ˆ๋‹ค. ์„ ํƒ๋œ ํ›„๋ณด์˜์—ญ์˜ ํฌ๊ธฐ๋ฅผ ๋งž์ถ”๊ธฐ ์œ„ํ•ด RoI Pooling์„ ๊ฑฐ์น˜๊ณ  ์ดํ›„ Fast R-CNN๊ณผ ๋™์ผํ•˜๊ฒŒ ์ง„ํ–‰ํ•ฉ๋‹ˆ๋‹ค.

1.3.4. YOLOยถ

  • ๊ทธ๋ฆผ 1-11 YOLO ๊ตฌ์กฐ (์ถœ์ฒ˜: Redmon et al. 2016. You Only Look Once: Unified, Real-Time Object Detection)

Bouning-box์™€ Class probability๋ฅผ ํ•˜๋‚˜์˜ ๋ฌธ์ œ๋กœ ๊ฐ„์ฃผํ•˜์—ฌ ๊ฐ์ฒด์˜ ์ข…๋ฅ˜์™€ ์œ„์น˜๋ฅผ ํ•œ๋ฒˆ์— ์˜ˆ์ธกํ•ฉ๋‹ˆ๋‹ค.์ด๋ฏธ์ง€๋ฅผ ์ผ์ • ํฌ๊ธฐ์˜ ๊ทธ๋ฆฌ๋“œ๋กœ ๋‚˜๋ˆ  ๊ฐ ๊ทธ๋ฆฌ๋“œ์— ๋Œ€ํ•œ Bounding-box๋ฅผ ์˜ˆ์ธกํ•ฉ๋‹ˆ๋‹ค. Bounding-box์˜ confidence score์™€ ๊ทธ๋ฆฌ๋“œ์…€์˜ class score์˜ ๊ฐ’์œผ๋กœ ํ•™์Šตํ•˜๊ฒŒ ๋ฉ๋‹ˆ๋‹ค. ๊ฐ„๋‹จํ•œ ์ฒ˜๋ฆฌ๊ณผ์ •์œผ๋กœ ์†๋„๊ฐ€ ๋งค์šฐ ๋น ๋ฅด์ง€๋งŒ ์ž‘์€ ๊ฐ์ฒด์— ๋Œ€ํ•ด์„œ๋Š” ์ƒ๋Œ€์ ์œผ๋กœ ์ •ํ™•๋„๊ฐ€ ๋‚ฎ์Šต๋‹ˆ๋‹ค.

1.3.5. SSDยถ

  • ๊ทธ๋ฆผ 1-12 SSD ๊ตฌ์กฐ (์ถœ์ฒ˜: Liu et al. 2016. SSD: Single Shot MultiBox Detector)

๊ฐ Covolutional Layer ์ดํ›„์— ๋‚˜์˜ค๋Š” Feature map๋งˆ๋‹ค Bounding-box์˜ Class ์ ์ˆ˜์™€ Offset(์œ„์น˜์ขŒํ‘œ)๋ฅผ ๊ตฌํ•˜๊ณ , NMS ์•Œ๊ณ ๋ฆฌ์ฆ˜์„ ํ†ตํ•ด ์ตœ์ข… Bounding-box๋ฅผ ๊ฒฐ์ •ํ•ฉ๋‹ˆ๋‹ค. ์ด๋Š” ๊ฐ Feature map๋งˆ๋‹ค ์Šค์ผ€์ผ์ด ๋‹ค๋ฅด๊ธฐ ๋•Œ๋ฌธ์— ์ž‘์€ ๋ฌผ์ฒด์™€ ํฐ ๋ฌผ์ฒด๋ฅผ ๋ชจ๋‘ ํƒ์ง€ํ•  ์ˆ˜ ์žˆ๋‹ค๋Š” ์žฅ์ ์ด ์žˆ์Šต๋‹ˆ๋‹ค.

1.3.6. RetinaNetยถ

  • ๊ทธ๋ฆผ 1-13 Focal Loss (์ถœ์ฒ˜: Lin et al. 2018. Focal Loss for Dense Object Detection)

RetinaNet์€ ๋ชจ๋ธ ํ•™์Šต์‹œ ๊ณ„์‚ฐํ•˜๋Š” ์†์‹ค ํ•จ์ˆ˜(loss function)์— ๋ณ€ํ™”๋ฅผ ์ฃผ์–ด ๊ธฐ์กด One-Stage Detector๋“ค์ด ์ง€๋‹Œ ๋‚ฎ์€ ์„ฑ๋Šฅ์„ ๊ฐœ์„ ํ–ˆ์Šต๋‹ˆ๋‹ค. One-Stage Detector๋Š” ๋งŽ๊ฒŒ๋Š” ์‹ญ๋งŒ๊ฐœ ๊นŒ์ง€์˜ ํ›„๋ณด๊ตฐ ์ œ์‹œ๋ฅผ ํ†ตํ•ด ํ•™์Šต์„ ์ง„ํ–‰ํ•ฉ๋‹ˆ๋‹ค. ๊ทธ ์ค‘ ์‹ค์ œ ๊ฐ์ฒด์ธ ๊ฒƒ์€ ์ผ๋ฐ˜์ ์œผ๋กœ 10๊ฐœ ์ด๋‚ด ์ด๊ณ , ๋‹ค์ˆ˜์˜ ํ›„๋ณด๊ตฐ์ด background ํด๋ž˜์Šค๋กœ ์žกํž™๋‹ˆ๋‹ค. ์ƒ๋Œ€์ ์œผ๋กœ ๋ถ„๋ฅ˜ํ•˜๊ธฐ ์‰ฌ์šด background ํ›„๋ณด๊ตฐ๋“ค์— ๋Œ€ํ•œ loss๊ฐ’์„ ์ค„์—ฌ์คŒ์œผ๋กœ์จ ๋ถ„๋ฅ˜ํ•˜๊ธฐ ์–ด๋ ค์šด ์‹ค์ œ ๊ฐ์ฒด๋“ค์˜ loss ๋น„์ค‘์„ ๋†’์ด๊ณ , ๊ทธ์— ๋”ฐ๋ผ ์‹ค์ œ ๊ฐ์ฒด๋“ค์— ๋Œ€ํ•œ ํ•™์Šต์— ์ง‘์ค‘ํ•˜๊ฒŒ ํ•ฉ๋‹ˆ๋‹ค. RetinaNet์€ ์†๋„ ๋น ๋ฅด๋ฉด์„œ Two-Stage Detector์™€ ์œ ์‚ฌํ•œ ์„ฑ๋Šฅ์„ ๋ณด์ž…๋‹ˆ๋‹ค