์ด ๊ฐ์๋ฅผ ํตํด ์๊ฐ์์ ์ธ๊ณต์ง๋ฅ ์ปดํจํฐ ๋น์ ์ Video Understanding ๋ถ์ผ๋ฅผ ์ธ์งํ๊ณ Event Detection ๋ถ์ผ ๋ชจ๋ธ์ ํ๋ จ์ํค๊ณ ํ๊ฐํ๋ฉฐ ํ ์คํธ ํด๋ณผ ์ ์์ต๋๋ค. ๊ทธ๋ฆฌ๊ณ ๊ธฐ์กด ๋คํธ์ํฌ ๊ตฌ์กฐ๋ฅผ ๊ฐ์ ํ์ฌ ๋ชจ๋ธ์ ์ฑ๋ฅ์ ๊ฐ์ ํ๋ฉฐ '์ธ๊ณต์ง๋ฅ ์ฐ๊ตฌํ๊ธฐ'๋ฅผ ๋ง๋ณผ ์ ์์ต๋๋ค.
์ธ๊ณต์ง๋ฅ
์ปดํจํฐ๋น์
Video Understanding
Event Detection
Human Pose
3D ํด๋จผ ํฌ์ฆ ์ด๋ฒคํธ ๋ํ ์ ์ ๋ชจ๋ ๊ฒ! ๐ฉ
์๋ฌด๋ ์๋ ์๋ฆฌ๋ฒ ์ดํฐ์์ ์ฐ๋ฌ์ง ์ฌ๋์ ์ด๋ป๊ฒ ์ ์ ์์๊น์? ์ด ๊ธฐ์ ์ ์์์ด๋ ์ด๋ฏธ์ง์์ ํน์ ๋์์ ์ธ์ํ๋ ์ปดํจํฐ ๋น์ ์ Video Understanding ๋ถ์ผ์์ ์์๋ฉ๋๋ค. ๊ฐ์์์๋ Video Understanding ๋ถ์ผ ์ค์์๋ ์์์์ ํน์ ํ๋, ์ด๋ฒคํธ, ์ฅ๋ฉด์ ํ๋ ์์ ๊ฒ์ถํ๋ Event Detection ๋ถ์ผ๋ฅผ ํ์ตํฉ๋๋ค. ๋๊บผ์ด ์ฑ ์ด๋ ์ง๋ฃจํ ๋ฐ์ดํฐ ์์ด๋ ์ถฉ๋ถํ ํ ์ ์์ด์!
์ ๋ ์ธ๊ณต์ง๋ฅ ์ ๋ฌธ๊ฐ๊ฐ ๋๊ณ ์ถ์ด ๋ํ์์ ์งํํ๋๋ฐ ์ฐ๊ตฌ ๊ฒฝํ๋ ์๊ณ ๋ ผ๋ฌธ ์จ๋ณธ ์ ๋ ์ฝ์ด๋ณธ ์ ๋ ์์์ต๋๋ค. ๋ธ๋ก๊ทธ ๋ณด๋ฉด์ ๋ฐ๋ผ ํ๋ ๊ฒ ์ ๋ถ์์ฃ . ๊ทธ๋์ ๋ํ์ 1ํ๋ ๋ ๊ฝค ๊ณ ์ํ์ต๋๋ค. ๊ทธ๋ฐ ๊ฒฝํ์ ๋ฐํ์ผ๋ก ๊ฐ์๋ฅผ ๊ตฌ์ฑํด ๋ณด์์ต๋๋ค. ๊ฐ์๋ฅผ ํตํด ์๊ฐ์๋ถ๋ค๊ป ์ธ์ฌ์ดํธ๋ฅผ ์ฃผ๊ณ ์ฐฝ์์ ์ธ ์๊ฐ์ ์ ๊ณตํ๋ ๊ฒ์ด ์ด ๊ฐ์์ ๋งค๋ ฅ์ ๋๋ค. ๋ค์ํ๊ณ ๊ตฌ์ฒด์ ์ธ ์คํ ๊ณผ์ ์ ์๋ต๋์์ง๋ง, ์ฐ๊ตฌ๊ฐ ์ด๋ป๊ฒ ์งํ๋๋์ง ๋ฐฉํฅ์ ์๋ ค ๋๋ฆฝ๋๋ค.
๋ณธ ๊ฐ์๋ ๊ด๋ จ ๋ ผ๋ฌธ์ ๊ฐ๋จํ ์ฝ์ด๋ณด๊ณ , ๋ ผ๋ฌธ์ ๊ตฌํ ์ฝ๋ ๋๋ ค๋ณด๋ฉด์ ๊ธฐ์กด ๋ฐฉ๋ฒ์์์ ์ฑ๋ฅ์ ๊ฐ์ ํ๋ ๊ฒ์ด ๋ชฉํ์ ๋๋ค. ํจ๊ป ๋ ผ๋ฌธ์ ๋คํธ์ํฌ๋ฅผ ๊ตฌํํ ์ฝ๋๋ฅผ ์ดํด๋ณด๊ณ ๋คํธ์ํฌ๋ฅผ ํ๋ จ, ํ๊ฐ, ํ ์คํธ๋ ๋ฌผ๋ก ๋คํธ์ํฌ ์ค๊ณ๊น์ง ํด๋ด ๋๋ค. ์ ๋ชจ๋ฅด๋ ๋ถ์ผ๋ ๊ณต๋ถํ๊ณ ์ค์ตํ๋ ๊ฒ ์๋๋ผ ์ค์ตํ๋ฉด์ ๊ณต๋ถํ๋ ๊ฑฐ๋ผ๊ณ ์๊ฐํฉ๋๋ค. ์ผ๋จ ํด๋ด ์๋ค!
Event Spotting ๋๋ Event Detection์ด๋ผ ๋ถ๋ฆฌ๋ ์์ ์ ํน์ ์ด๋ฒคํธ๋ ์ฅ๋ฉด์ ๊ฒ์ถ ๋ฐ ํ์งํ๋ ๋ถ์ผ๋ฅผ ๊ณต๋ถํด ๋ด ๋๋ค.
๊ทธ์ค์์ ๋ณดํธ์ ์ด๊ณ ์ธ๊ณ์ ์ผ๋ก ์ธ๊ธฐ๊ฐ ์๋ ๊ณจํ ์ค์ ์์์ ๋ํด ์ฃผ์ 8๊ฐ์ง ๋์ ์ฅ๋ฉด์ ์ถ์ถํฉ๋๋ค. ๊ณจํ ์ค์ ๋์์ ํน์ง์ ๋ช ํํ ๊ตฌ๋ถ ๋์์ด ์์ผ๋ฉฐ ์์ธ๊ฐ ์ค์ํ ์คํฌ์ธ ์ด๊ธฐ ๋๋ฌธ์ ๊ณจํ๋ฅผ ๋ฐฐ์ฐ๋ ๋ง์ ์ฌ๋๋ค์ด ์์ ์ ์์ธ๋ฅผ ๋ถ์ํ๊ธฐ๋ฅผ ์ํฉ๋๋ค. ์ด๋ฅผ ์ํด Event Detection์ ์ ์ฉํ ์ธ๊ณต์ง๋ฅ ๋ชจ๋ธ์ ํจ๊ป ๋ง๋ค์ด ๋ด ๋๋ค.
๊ณจํ ์์์์ 8๊ฐ์ง ๋์ ์ฅ๋ฉด์ ์ถ์ถํ๋ค๋ฉด ์๋์ ๊ฐ์ด 8๊ฐ์ง ์์ธ๋ฅผ ํฌ์ฐฉํ๋ ์ธ๊ณต์ง๋ฅ ๋ชจ๋ธ์ ์ ์ํ ์ ์์ต๋๋ค.
๊ธฐ์กด ๋ฐฉ๋ฒ์์ ์๋ก์ด ์ ๋ ฅ์ธ Human Pose๋ฅผ ์ ๊ณตํ์ฌ ๋คํธ์ํฌ๋ฅผ ํ๋ จ์ํต๋๋ค.
์ปดํจํฐํ, ์ธ๊ณต์ง๋ฅ ์ ๊ณต ์ง์, ๋ค์์ ๋ฅ๋ฌ๋/๋จธ์ ๋ฌ๋ ํ๋ก์ ํธ ๊ฒฝํ๊ณผ ๊ณต๋ชจ์ ์์, ๋ํ์ ์ฐ๊ตฌ ๊ฒฝ๋ ฅ์ ๋ฐํ์ผ๋ก ์ฌ๋ฌ๋ถ๊ป ์ฐ๊ตฌ ๋ฐ ํ๋ก์ ํธ ๊ฒฝํ์ ์ ๊ณตํด ๋๋ฆฝ๋๋ค.
์๋ ํ์ธ์, ๋ฐ๋ผ์์ด ๊นํ์ฐ์ ๋๋ค.
๊ณ ๋ ค๋ํ๊ต ์ธ๊ณต์ง๋ฅํ๊ณผ ์์ฌ๊ณผ์ ์ 2๋ ๋ง์ ๋ง์น๊ณ ์กธ์ ํ๋ ๊ณผ์ ์์, ์ธ๊ณต์ง๋ฅ ๋ฐ ์ปดํจํฐ ๋น์ ๋ถ์ผ ์ธ๊ณ 19์ ํํ์ธ ACCV2022(Asian Conference on Computer Vision)์ 3D Human Pose Estimation ๋ถ์ผ ๋ ผ๋ฌธ์ ๊ฒ์ฌํ๋ฉฐ ๊ตฌ๋ ๋ฐํ ๋ ผ๋ฌธ์๋ ์ ์ ๋์๋ ๊ฒฝํ์ด ์์ต๋๋ค. ์ดํ ๊ธฐ์กด ๋ ผ๋ฌธ์ ๊ฐ์ ํ์ฌ ์ธ๊ณ 6์ ์ ๋์ธ Pattern Recognition์ ์ 1 ์ ์๋ก ๋ ผ๋ฌธ์ ๊ฒ์ฌํ์์ต๋๋ค.
์ธ๊ณต์ง๋ฅ ํน์ ๋ถ์ผ์ ๋ํ ์ ๊ทผ์ฑ์ด ์ข์ง ์์ ๋ง์ ๋ถ์ด ํ์ต์ ์์ํ๋ ๋ฐ ํผ๋ก๋ฅผ ๋๋ผ๊ฑฐ๋ ํฌ๊ธฐํ๋ ๋ชจ์ต์ ๋ณด๊ณ ์ด๋ฒ ๊ฐ์๋ฅผ ๋ง๋ค์ด ๋ณด์์ต๋๋ค. ์ง๋ 2๋ ๋์์ ๋ฐฐ์๊ณผ ์ํ์ฐฉ์ค๋ฅผ ๊ฐ์์ ๋ด์์ต๋๋ค.
๊ฐ์๋ฅผ ํตํด ์ธ๊ณต์ง๋ฅ ๋ถ์ผ์ ๋ํด ํฅ๋ฏธ๋ฅผ ๊ฐ๊ณ ์๋ก์ด ์ฑ์ทจ๊ฐ์ ๊ฐ์ ธ๊ฐ์ จ์ผ๋ฉด ์ข๊ฒ ์ต๋๋ค :)
์ธ๊ณต์ง๋ฅ ๋ถ์ผ ๋ํ์์ ๊ฐ๊ณ ์ถ์ง๋ง ์ฐ๊ตฌ๋ ๋ ผ๋ฌธ ๊ฒฝํ์ด ์๋ ๋ถ
์ธ๊ณต์ง๋ฅ์ ํ ๋ถ์ผ๋ฅผ ๋น ๋ฅด๊ฒ ๋ง๋ณด๊ณ ์ถ์ ๋ถ
์ธ๊ณต์ง๋ฅ ์ฐ๊ตฌ๋ ์ด๋ป๊ฒ ํ๋์ง ๊ถ๊ธํ ๋ถ
๊ณต๋ชจ์ , ํ๋ก์ ํธ์์ ์ ๋ฐํ ์์ด๋์ด๊ฐ ํ์ํ ๋ํ์
Q. ์๊ฐ ์ ๊ฐ์ถฐ์ผ ํ ํ๊ฒฝ์ด ์๋์?
์ ๋ ์ฐ๋ถํฌ์์ Cuda์ cudnn์ ๊ตฌ์ฑํ ์ํ์์ ๋คํธ์ํฌ ํ๋ จ์ ์ํด GPU๋ฅผ ์ฌ์ฉ ๊ฐ๋ฅํ ํ๊ฒฝ์ ๋ง๋ค์์ด์. ๊ตฌ๊ธ๋ง์ ํตํด ํ๊ฒฝ์ ์ธํ ํด ์ฃผ์ธ์.
Q. ๊ฐ์๋ฅผ ๋ฃ๊ธฐ ์ ์ค๋นํด์ผ ํ ๊ฒ์ด ์๋์?
๋คํธ์ํฌ ํ๋ จ์ ์ํ GPU๊ฐ ์์ด์ผ ํฉ๋๋ค.
Q. ์์ ๋ด์ฉ์ ์ด๋ ์์ค์ผ๋ก ๋ค๋ฃจ๋์?
๊ด๋ จ ๋ถ์ผ ์ ๋ฌธ๊ฐ๊ฐ ๋ฃ๊ธฐ์๋ ์์ฃผ ์ฝ๊ณ ์ฒ์ ๋ฐฐ์ฐ๋ ์ฌ๋์๊ฒ๋ ์์ํ ์ ์์ต๋๋ค. ๊ทธ๋ฌ๋ ์ ๋ฌธ๊ฐ ์์ค์ด ์๋๊ณ ํ์ด์ฌ์ ํ ์ค ์์๊ณ Visual Studio Code ํด์ ์ต์ํ์ ๋ถ๋ค์ด๋ผ๋ฉด ๋๋ Github์์ ๋ ํ์งํ ๋ฆฌ ์ฝ๋๋ฅผ git cloneํ์ ๊ฒฝํ์ด ์์ผ์๋ฉด ์ฝ๊ฒ ๋ฐ๋ผ์ค์ค ์ ์์ผ์ค ๊ฒ๋๋ค.
ํ์ต ๋์์
๋๊ตฌ์ผ๊น์?
์ธ๊ณต์ง๋ฅ ์ฐ๊ตฌ๋ฅผ ํ๊ณ ์ถ์ ์ฌ๋
๊ณต๋ชจ์ ์ ์ํ ์ ๋ฐํ ์์ด๋์ด๊ฐ ํ์ํ ์ฌ๋
Event Detection ๋ถ์ผ๋ฅผ ์๊ณ ์ถ์ ์ฌ๋
์ ์ ์ง์,
ํ์ํ ๊น์?
Python
ํ์ฐธ ๋ฐฐ์ฐ๊ณ ์๋ ํ์์ ๋๋ค.
์ ๋ฌธ์ ์ธ๊ฒ๋, ์์ ์๋ ๋ถ์ผ๋ ์์ต๋๋ค.
ํ์ง๋ง ์ด์ ์ ๋๊ตฌ๋ณด๋ค ํ๋ก์ ๋๋ค.
๋ฐ๋ผํ๋ฉด์ ๋ฐฐ์ฐ์. ๋ชจ๋ฅด๋ฉด ์ผ๋จ ๋ฐ๋ผํ๋ฉด์ ๋ฐฐ์๋ณด์๋ผ๋ ๋ง์์ผ๋ก ๋ฐฐ์ฐ๊ณ ์์ต๋๋ค.
์ ์ฒด
16๊ฐ โ (2์๊ฐ 24๋ถ)
ํด๋น ๊ฐ์์์ ์ ๊ณต: