ํต์ฌ๋ง ๋ด์๋ค!
๋ชจ๋ธ ๊ตฌ์ถ์ ์ํ ๋จธ์ ๋ฌ๋ ๊ธฐ๋ณธ ์ดํด

๋จธ์ ๋ฌ๋์ด๋? ๐ฉโ๐ป
๋จธ์ ๋ฌ๋์ ์์น๋ฅผ ์์ธกํ๋ ์์
(ํ๊ท), ์นดํ
๊ณ ๋ฆฌ๋ฅผ ์์ธกํ๋ ๋ถ๋ฅ, ์ต์ ์ ์ถ์ฒ ๋ฑ์ ์ํํ๋ ์ํํธ์จ์ด๋ก, ๋ฐ์ดํฐ๋ฅผ ๋ณด๊ณ ํ์ตํ์ฌ ์ ์ฐจ ์ฑ๋ฅ์ด ๊ฐ์ ๋๋ ์ํํธ์จ์ด๋ฅผ ์๋ฏธํฉ๋๋ค.
ํ์ฌ ์ธ๊ณต์ง๋ฅ์ ๊ตฌํํ๋ ๋ํ์ ์ธ ๋ฐฉ๋ฒ์ด ๋จธ์ ๋ฌ๋ ๊ธฐ๋ฒ์
๋๋ค. ๋จธ์ ๋ฌ๋์ ํต์ฌ ๊ธฐ๋ฅ์ ์ง๋ฅ์ ์ธ ๋์์ ์ํํ๋ ๋จธ์ ๋ฌ๋ "๋ชจ๋ธ"์ ๋ง๋๋ ๊ฒ์
๋๋ค.
๋จธ์ ๋ฌ๋ ๋ชจ๋ธ ๐
์
๋ ฅ ๋ฐ์ดํฐ(X)๋ก๋ถํฐ ์ต์ ์ ์ถ๋ ฅ(y)์ ์ป๋ ์ํํธ์จ์ด๋ฅผ ๋งํ๋ฉฐ ์ต์ ์ ์ถ๋ ฅ์ด๋ ์ ๋ต(label, target)์ ์ ์์ธกํ๋ ๊ฒ์ ๋งํฉ๋๋ค.
๋ชจ๋ธ์ ์ข
๋ฅ์๋ ์ ํ๋ชจ๋ธ, ๋ก์ง์คํฑ ํ๊ท, SVM, ๊ฒฐ์ ํธ๋ฆฌ, ๋๋ค ํฌ๋ ์คํธ, kNN, ๋ฒ ์ด์์ธ, ๋ฅ๋ฌ๋ ๋ชจ๋ธ (MLP, CNN, RNN) ๋ฑ์ด ์์ต๋๋ค. ์ด ๊ฐ์์์๋ ์ด ์๊ณ ๋ฆฌ์ฆ๋ค์ ๋ด์ฉ์ ์ค๋ช
ํ์ง๋ ์์ง๋ง ๋จธ์ ๋ฌ๋ ๋ชจ๋ธ์ ๊ตฌํํ๋ ๊ธฐ๋ณธ์ ์ด๋ฉฐ ๊ณตํต์ ์ธ ๋ฐฉ๋ฒ์ ์ ํ ๋ชจ๋ธ์ ์ฌ์ฉํ์ฌ ๋ฐฐ์๋๋ค. ๊ฐ ๋ชจ๋ธ์ ํน์ง์ ๋ํด์๋ ๋ค๋ฅธ ๊ฐ์์์ ๋ค๋ฃน๋๋ค.

๋จธ์ ๋ฌ๋ ๋ชจ๋ธ ๊ตฌ์ฑ ์์ ๐ฆ
1๏ธโฃ ์
๋ ฅ ๋ฐ์ดํฐ
์ต์ ์ ๋ชจ๋ธ์ ๊ตฌํํ๋ ค๋ฉด, ๋ชจ๋ธ์ ํ์ต์ํค๋๋ฐ ํ์ํ ํ๋ จ (train) ๋ฐ์ดํฐ, ๊ทธ๋ฆฌ๊ณ ํ์ต์ํจ ๋ชจ๋ธ์ ๋์์ ๊ฒ์ฆํ๋๋ฐ ํ์ํ ๊ฒ์ฆ (validation) ๋ฐ์ดํฐ๋ฅผ ์ ์ค๋นํด์ผ ํฉ๋๋ค.
์์(raw) ๋ฐ์ดํฐ๋ก๋ถํฐ ์ ์ ํ ํ์ต ๋ฐ ๊ฒ์ฆ ๋ฐ์ดํฐ๋ฅผ ๋ง๋๋ ๊ณผ์ ์ด ๋ฐ์ดํฐ ์ ์ฒ๋ฆฌ์ด๋ฉฐ ๋ฐ์ดํฐ ์ ์ฒ๋ฆฌ๊ฐ ๋จธ์ ๋ฌ๋ ๋ชจ๋ธ์ ์ฑ๋ฅ์ ํฌ๊ฒ ์ข์ฐํฉ๋๋ค.
2๏ธโฃ ๋จธ์ ๋ฌ๋ ๋ชจ๋ธ์ ๋ชฉ์
๋จธ์ ๋ฌ๋ ๋ชจ๋ธ์ ์ฌ์ฉํ๋ ๋ชฉ์ ์ ๋ค์๊ณผ ๊ฐ์ด 4๊ฐ์ง๋ก ๋๋์ด์ง๋๋ค.

์ด ๊ฐ์์์ ๋ฐฐ์ฐ๋ ๊ฒ ๐จโ๐ซ
โ
๋จธ์ ๋ฌ๋ ๋ชจ๋ธ
๋จธ์ ๋ฌ๋ ๊ฐ์๋ฅผ ํ์ตํ๊ณ ๋จธ์ ๋ฌ๋์ ์ดํดํ๊ธฐ ์ํ ํต์ฌ ๊ฐ๋
์ ๋ค์ฏ ๊ฐ์ ์์ ์ค์ฌ์ผ๋ก ์ค๋ช
ํฉ๋๋ค.
โ
์ฑ๋ฅ ํ๊ฐ
๋จผ์ ํ๊ท ๋ชจ๋ธ์ ๊ตฌํ, ํ์ต, ๊ฒ์ฆ ๋ฐฉ๋ฒ ๊ทธ๋ฆฌ๊ณ ๋ชจ๋ธ ์ฑ๋ฅ ํ๊ฐ ์ฒ๋์ธ R-squared, MAE, RMSE ๋ฑ์ ๋ฐฐ์๋๋ค.
๋ค์์๋ ๋ถ๋ฅ ๋ชจ๋ธ ๊ตฌํ ๋ฐฉ๋ฒ๊ณผ ๊ฒฐ์ ๊ฒฝ๊ณ, ์ปจํจ์ ๋งคํธ๋ฆญ์ค, ์ ํ๋, ์ ๋ฐ๋(precision), ๋ฆฌ์ฝ(recall), f-1 ์ ์์ ๊ฐ๋
์ ๋ฐฐ์๋๋ค. ๋ถ๋ฅ์ ์ฑ๋ฅ ํ๊ฐ๋ฅผ ํ๋ ค๋ฉด ์ปจํจ์ ๋งคํธ๋ฆญ์ค๋ฅผ ๋ช
ํํ ์ดํดํด์ผ ํ๋ฉฐ ์์ ๋ฅผ ํตํด์ ์ด๋ฅผ ์์ธํ๊ฒ ์๊ฐํฉ๋๋ค.

๋ถ๋ฅ ๋ชจ๋ธ์ ์ข
ํฉ์ ์ธ ์ฑ๋ฅ ํ๊ฐ๋ฅผ ์ํด์๋ ์์ธก ์์(๋ญํน)๋ฅผ ํ๊ฐํด์ผ ํ๋๋ฐ ์ด๋ฅผ ์ํด์ ROC-AUC, precision-recall curve์ ์ฌ์ฉ๋ฒ์ ์ค๋ช
ํฉ๋๋ค.
โ
๋ถ๋ฅ ๊ฒฝ๊ณ์น(threshold) ์ฐพ๊ธฐ
์ค์ ์
๋ฌด์์๋ ๋ถ๋ฅ ๋ชจ๋ธ์ด ๋ง์กฑ์์ผ์ผ ํ ์ต์ํ์ ์ ๋ฐ๋๋ ๋ฆฌ์ฝ๊ฐ ์๊ตฌ ๊ธฐ์ค์ด ์์ผ๋ฉฐ ์ด๋ฅผ ๋ง์กฑํ๋ ์ต์ ์ ๋ถ๋ฅ ๊ฒฝ๊ณ๊ฐ(threshold)์ ์ ํํด์ผ ํ ์ผ์ด ๋ง์ต๋๋ค. Precision-Recall ์ปค๋ธ๋ฅผ ์ด์ฉํ์ฌ ์ต์ ์ ๊ฒฝ๊ณ๊ฐ์ ์ฐพ๋ ๋ฐฉ๋ฒ์ ์์ธํ ๋ค๋ฃน๋๋ค.

โ
ํต๊ณ ๋ถ์๊ณผ ๋จธ์ ๋ฌ๋์ ์ฐจ์ด
๋จธ์ ๋ฌ๋์ ๋ฐฐ์ฐ๋ฉด์ ๊ฐ์ฅ ๊ถ๊ธํดํ๋ ๊ฒ ์ค ํ๋๊ฐ ํต๊ณ ๋ถ์๊ณผ์ ์ฐจ์ด๋ฅผ ์ดํดํ๋ ๊ฒ์
๋๋ค. ํต๊ณ ๋ถ์์ ๊ธฐ์ ํต๊ณ, ์ถ์ , ๊ฐ์ค๊ฒ์ฆ์ผ๋ก ๋๋์ด์ง๋๋ค.
- ๊ธฐ์ (descriptive) ํต๊ณ
- ๋ฐ์ดํฐ์ ํ๊ท , ํ์คํธ์ฐจ, ํ๋ฅ ๋ถํฌ, ์๊ด๊ด๊ณ ๋ฑ ํ์
ํ์ฌ ๋ฐ์ดํฐ์ ํฌํจ๋ ์ด๋ค ์๋ฏธ, ํต์ฐฐ๋ ฅ(insight)๋ฅผ ์ป๋ ๊ฒ์ ๋งํฉ๋๋ค.
- ์ถ์ (estimation)
- ํ๋ณธ ์ํ์ ๋ณด๊ณ ๋ชจ์ง๋จ์ ํน์ฑ์ ์ถ์ ํ๋ ๊ฒ์ผ๋ก ํ๊ท , ํ์คํธ์ฐจ ๋ฑ ํน์ ์์น ๊ฐ์ ์ถ์ ํ๋ ์ ์ถ์ ๊ณผ ์ ๋ขฐ๊ตฌ๊ฐ ๋ฑ์ ์ถ์ ํ๋ ๊ตฌ๊ฐ ์ถ์ ์ด ์์ต๋๋ค.
- ๊ฐ์ค ๊ฒ์ (testing hypothesis)
- ์ํ ๋ฐ์ดํฐ๋ฅผ ๋ณด๊ณ ์ฃผ์ฅํ๊ณ ์ ํ๋ ๋๋ฆฝ๊ฐ์ค(alternative hypothesis)์ด ๋ง๋์ง๋ฅผ ๊ฒ์ (testing)ํ๋ ๊ฒ์ ๋งํฉ๋๋ค.
ํต๊ณํ์์๋ ์ด๋ก ์ ์ธ ๊ทผ๊ฑฐ๋ฅผ ์ค๋ช
ํ๋ ๊ฒ์ ์ค์์ํ์ฌ ๊ฐ์ค, ํ๋ฅ , ์ ๋ขฐ๊ตฌ๊ฐ, ์ค์ฐจ๋ฒ์ ๋ฑ์ ๋ค๋ฃน๋๋ค. ๋ฐ๋ฉด, ๋จธ์ ๋ฌ๋์ ์ด๋ก ์ ์ธ ๊ทผ๊ฑฐ ์ ์๋ณด๋ค๋ ์์ธก์ด๋ ๋ถ๋ฅ๋ฅผ ์ ์ํํ๋ ์ํํธ์จ์ด ๋ชจ๋ธ์ ๋ง๋๋ ๊ฒ์ ๋ชฉํ๋ก ํฉ๋๋ค.
๋ถ์ํ ๋ฐ์ดํฐ์ ํฌ๊ธฐ๊ฐ ์์ผ๋ฉด ํต๊ณ์ ๋ถ์์ ์์กดํ์ฌ ์ค๋ช
, ์ถ์ , ๊ฐ์ค๊ฒ์ฆ ๋ฑ์ ํด์ผ ํ๋, ๋ฐ์ดํฐ๊ฐ ์ถฉ๋ถํ ๋ง์ผ๋ฉด ๋จธ์ ๋ฌ๋ ๋ชจ๋ธ์ ๋ง๋ค์ด ์ค์ ์์ ์ฌ์ฉ ๊ฐ๋ฅํ ๋ชจ๋ธ์ ๋ง๋๋ ๊ฒ์ด ๋ ์ ์ฉํฉ๋๋ค.
์ด ๊ฐ์์์๋ ์ ๊ท๋ถํฌ์ ํน์ฑ ๋ฑ ํต๊ณ ๋ถ์์ ๊ธฐ๋ณธ์ ์ธ ๋ด์ฉ์ ์๊ฐํฉ๋๋ค. ์ฐธ๊ณ ๋ก ์ ๊ท๋ถํฌ๋ ๋์ ๋๋ ์ํ๋ค์ ํ๋ฅ ๋ถํฌ ํจ์๊ฐ ๋ ์ด์ ๋ฐ๋์ง ์๊ณ ์๋ ดํ ๋์ ํ๋ฅ ๋ถํฌ ํจ์์
๋๋ค. (์๋ ๊ทธ๋ฆผ)
๐ ํต์ฌ ๋ฐ์ดํฐ ์ฌ์ด์ธ์ค ๊ฐ์๋ณด๊ธฐ
๋ฐ์ดํฐ ์ฌ์ด์ธ์ค์ ๊ธฐ๋ณธ์ด ๋๋ ์ธ์ด ํ์ด์ฌ.
๋ณธ ๊ฐ์๋ ํ์ด์ฌ ๊ธฐ์ด ์ง์์ด ์ ์ ๋๋ ๊ฐ์์
๋๋ค.
ํ์ด์ฌ ์ธ์ด์ ๋ํ ๊ธฐ์ด ์ง์์ด ์์ผ์ ๋ถ๋ค์
์ค์ ๋ฐ์ดํฐ ์ฌ์ด์ธ์ค Part1. ํ์ด์ฌ ์
๋ฌธ ๊ฐ์๋ฅผ ํตํด
์ ์ ์ง์ ํ์ต์ ์ถ์ฒ๋๋ฆฝ๋๋ค.
์ค์ ๋ฐ์ดํฐ ์ฌ์ด์ธ์ค Part2. ๋ฐ์ดํฐ ์ ์ฒ๋ฆฌ๊ธฐ์
์์ ๊ฐ์ฅ ๋ง์ด ๋ค๋ฃจ๋ ๋ฐ์ดํฐ ๋ถ์ ์ฑ๋ฅ์
๊ฐ์ฅ ํฐ ์ํฅ์ ์ฃผ๋ ๋ฐ์ดํฐ ์ ์ฒ๋ฆฌ ๊ด๋ จ ๊ฐ์์
๋๋ค.
๋ฐ์ดํฐ ์ ์ฒ๋ฆฌ์ ๋ํด ์ง์ค์ ์ผ๋ก ํ์ตํ๊ณ ์ถ์ผ์ ๋ถ๋ค์
์ค์ ๋ฐ์ดํฐ ์ฌ์ด์ธ์ค Part2. ๋ฐ์ดํฐ ์ ์ฒ๋ฆฌ ๊ฐ์ ํ์ต์
์ถ์ฒ๋๋ฆฝ๋๋ค.