์ฑ„๋„ํ†ก ์•„์ด์ฝ˜
BEST

์ŠคํŒŒํฌ ๋จธ์‹ ๋Ÿฌ๋‹ ์™„๋ฒฝ ๊ฐ€์ด๋“œ - Part 1

์ŠคํŒŒํฌ(Spark) ๋จธ์‹ ๋Ÿฌ๋‹์˜ ํ•ต์‹ฌ Framework์— ๋Œ€ํ•œ ์ดํ•ด, ๋‚œ์ด๋„ ๋†’์€ ์‹ค์ „ ๋ฌธ์ œ๋ฅผ ํ†ตํ•œ SQL ๊ธฐ๋ฐ˜์˜ ๋ฐ์ดํ„ฐ ๊ฐ€๊ณต, ์—…๋ฌด ๋„๋ฉ”์ธ ๋ถ„์„์„ ํ†ตํ•œ ๋ฐ์ดํ„ฐ ๋ถ„์„๊ณผ ์ตœ์ ํ™”๋œ ๋จธ์‹ ๋Ÿฌ๋‹ ๋ชจ๋ธ ๊ตฌํ˜„ ๋Šฅ๋ ฅ๊นŒ์ง€, ๋Œ€์šฉ๋Ÿ‰ ๋ฐ์ดํ„ฐ ๊ธฐ๋ฐ˜์—์„œ ๋จธ์‹ ๋Ÿฌ๋‹ ์ „๋ฌธ๊ฐ€๋กœ ์ธ์ • ๋ฐ›๊ณ  ์‹ถ๋‹ค๋ฉด ์ด ๊ฐ•์˜์™€ ํ•จ๊ป˜ ํ•˜์‹ญ์‹œ์š”.

Thumbnail

์ค‘๊ธ‰์ž๋ฅผ ์œ„ํ•ด ์ค€๋น„ํ•œ
[๋ฐ์ดํ„ฐ ์—”์ง€๋‹ˆ์–ด๋ง, ๋”ฅ๋Ÿฌ๋‹ ยท ๋จธ์‹ ๋Ÿฌ๋‹] ๊ฐ•์˜์ž…๋‹ˆ๋‹ค.

์ด๋Ÿฐ ๊ฑธ ๋ฐฐ์šธ ์ˆ˜ ์žˆ์–ด์š”

  • ์ŠคํŒŒํฌ์—์„œ ๋จธ์‹ ๋Ÿฌ๋‹ ๋ชจ๋ธ ๊ตฌํ˜„ํ•˜๊ธฐ

  • ์ŠคํŒŒํฌ์˜ ๋ฐ์ดํ„ฐ ์ฒ˜๋ฆฌ ๊ธฐ๋ฐ˜์ธ DataFrame์— ๋Œ€ํ•œ ์ƒ์„ธํ•œ ์ดํ•ด

  • ์ŠคํŒŒํฌ ๋จธ์‹ ๋Ÿฌ๋‹ Framework์„ ๊ตฌ์„ฑํ•˜๋Š” ๋‹ค์–‘ํ•œ ๊ธฐ์ˆ  ์š”์†Œ ์ดํ•ด

  • ์ŠคํŒŒํฌ์˜ ๋จธ์‹ ๋Ÿฌ๋‹ ํŒŒ์ดํ”„ ๋ผ์ธ ์ตํžˆ๊ธฐ

  • ๋ฐ์ดํ„ฐ ๋ถ„์„์„ ์œ„ํ•œ SQL ํ™œ์šฉ ๋Šฅ๋ ฅ

  • SQL ๊ธฐ๋ฐ˜์˜ Feature Engineering ๊ธฐ๋ฒ•

  • ์ŠคํŒŒํฌ์—์„œ XGBoost์™€ LightGBM์œผ๋กœ ๋ชจ๋ธ ๊ตฌํ˜„ํ•˜๊ธฐ

  • ๋ฒ ์ด์ง€์•ˆ ์ตœ์ ํ™” ๊ธฐ๋ฐ˜์˜ ๋ชจ๋ธ ํ•˜์ดํผ ํŒŒ๋ผ๋ฏธํ„ฐ ํŠœ๋‹ ๋ฐฉ๋ฒ•

  • ๋‚œ์ด๋„ ๋†’์€ ์‹ค์ „ ๋ฌธ์ œ๋ฅผ ํ†ตํ•ด ๋ฐ์ดํ„ฐ ๋ถ„์„๊ณผ ML ๋ชจ๋ธ ๊ตฌํ˜„ ์‹ค๋ ฅ์„ ๋™์‹œ์— ํ–ฅ์ƒ

  • ๋ถ„์„ ๋„๋ฉ”์ธ ๊ธฐ๋ฐ˜์˜ ๋ฐ์ดํ„ฐ ๋ถ„์„ ๋ฐฉ๋ฒ•

  • ์—ฌ๋Ÿฌ๊ฐ€์ง€ ๋ฐ์ดํ„ฐ ์‹œ๊ฐํ™” ๊ธฐ๋ฒ•

๋ฐ์ดํ„ฐ ๋ถ„์„ + ํ”ผ์ฒ˜ ์—”์ง€๋‹ˆ์–ด๋ง + ML ๊ตฌํ˜„, 
์„ธ ๊ฐ€์ง€ ์—ญ๋Ÿ‰์„ ํ•œ๋ฒˆ์— ์žก์•„๋ณด์„ธ์š”.

Apache Spark์™€
๋จธ์‹ ๋Ÿฌ๋‹์˜ ๋งŒ๋‚จ.

์˜คํ”ˆ ์†Œ์Šค ๋Œ€์šฉ๋Ÿ‰ ๋ถ„์‚ฐ ์ฒ˜๋ฆฌ ์†”๋ฃจ์…˜์˜ ์ตœ๊ฐ•์ž์ธ Apache Spark(์•„ํŒŒ์น˜ ์ŠคํŒŒํฌ)์™€ Machine Learning์ด ๋งŒ๋‚ฌ์Šต๋‹ˆ๋‹ค. 

๊ตญ๋‚ด ๋งŽ์€ ๋Œ€๊ธฐ์—…๊ณผ ๊ธˆ์œต๊ธฐ๊ด€์—์„œ Apache Spark๋ฅผ ํ™œ์šฉํ•˜์—ฌ ๋Œ€์šฉ๋Ÿ‰ ๋ฐ์ดํ„ฐ๋ฅผ ๋ถ„์„ํ•˜๊ณ  ๋จธ์‹  ๋Ÿฌ๋‹ ๋ชจ๋ธ์„ ๋งŒ๋“ค๊ณ  ์žˆ์Šต๋‹ˆ๋‹ค. Spark๋Š” ๋ถ„์‚ฐ ๋ฐ์ดํ„ฐ ์ฒ˜๋ฆฌ ํ”„๋ ˆ์ž„์„ ๊ธฐ๋ฐ˜์œผ๋กœ ํ•˜๊ณ  ์žˆ๊ธฐ ๋•Œ๋ฌธ์— ์ ๊ฒŒ๋Š” ์ˆ˜ ๋Œ€๋ถ€ํ„ฐ ๋งŽ๊ฒŒ๋Š” ์ˆ˜์‹ญ ๋Œ€์˜ ์„œ๋ฒ„ ์œ„์—์„œ ์šฉ๋Ÿ‰์„ ํ™•์žฅํ•ด ๊ฐ€๋ฉด์„œ ๋Œ€์šฉ๋Ÿ‰ ๋ฐ์ดํ„ฐ๋ฅผ ์ฒ˜๋ฆฌํ•˜๊ณ  ML ๋ชจ๋ธ์„ ๋งŒ๋“ค ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค. ๋•Œ๋ฌธ์— ํ•œ ๋Œ€์˜ ์„œ๋ฒ„์—์„œ๋งŒ ๋จธ์‹ ๋Ÿฌ๋‹ ๋ชจ๋ธ ๊ตฌํ˜„์ด ๊ฐ€๋Šฅํ•œ ์‚ฌ์ดํ‚ท๋Ÿฐ์˜ ํ•œ๊ณ„๋ฅผ ๋ฒ—์–ด๋‚  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.  


๋ฐ์ดํ„ฐ ๊ฐ€๊ณต/๋ถ„์„์—๋„ ๋Šฅํ•œ
๋จธ์‹ ๋Ÿฌ๋‹ ์ „๋ฌธ๊ฐ€๋กœ
์„ฑ์žฅ์‹œ์ผœ ๋“œ๋ฆฌ๊ฒ ์Šต๋‹ˆ๋‹ค.

'์ŠคํŒŒํฌ ๋จธ์‹ ๋Ÿฌ๋‹ ์™„๋ฒฝ ๊ฐ€์ด๋“œ - Part 1' ๊ฐ•์˜๋Š” ์ŠคํŒŒํฌ(Spark)์—์„œ ๋จธ์‹ ๋Ÿฌ๋‹ ๋ชจ๋ธ์„ ๊ตฌํ˜„ํ•˜๋Š” ๋ฐฉ๋ฒ•์„ ์ตํžˆ๋Š” ๊ฒƒ์„ ๋„˜์–ด์„œ ๋ฐ์ดํ„ฐ ๊ฐ€๊ณต๊ณผ ๋ถ„์„์—๋„ ๋Šฅํ•œ ๋จธ์‹ ๋Ÿฌ๋‹ ์ „๋ฌธ๊ฐ€๋กœ ์—ฌ๋Ÿฌ๋ถ„์„ ์„ฑ์žฅ์‹œ์ผœ ๋“œ๋ฆด๊ฒƒ์ž…๋‹ˆ๋‹ค. 

์ง„์ •ํ•œ ๋จธ์‹ ๋Ÿฌ๋‹ ์ „๋ฌธ๊ฐ€๋กœ ์„ฑ์žฅํ•˜๊ธฐ ์œ„ํ•ด์„œ๋Š” ๋น„๋‹จ ML ๊ตฌํ˜„ ๋Šฅ๋ ฅ ๋ฟ๋งŒ ์•„๋‹ˆ๋ผ ์—…๋ฌด ๋ฐ์ดํ„ฐ๋ฅผ ์–ด๋–ป๊ฒŒ ๊ฐ€๊ณตํ•˜๊ณ  ์กฐํ•ฉํ•˜์—ฌ ML ๋ชจ๋ธ์„ ๋งŒ๋“ค์–ด ๋‚ด๋Š” ๋Šฅ๋ ฅ ์—ญ์‹œ ๋งค์šฐ ์ค‘์š”ํ•ฉ๋‹ˆ๋‹ค. ์ด๋ฅผ ์œ„ํ•ด ์‹ค๋ฌด์—์„œ ๋Œ€์šฉ๋Ÿ‰ ๋ฐ์ดํ„ฐ ์ฒ˜๋ฆฌ์— ๊ฐ€์žฅ ๋งŽ์ด ์‚ฌ์šฉ๋˜๋Š” SQL์„ ํ™œ์šฉํ•˜์—ฌ ๋ฐ์ดํ„ฐ๋ฅผ ๊ฐ€๊ณตํ•˜๋Š” ๋ฒ•๊ณผ ์—…๋ฌด ๋„๋ฉ”์ธ ๋ถ„์„์— ๊ธฐ๋ฐ˜ํ•œ ๋ฐ์ดํ„ฐ ๋ถ„์„ ๊ธฐ๋ฒ•์„ ์‹ค์Šต์„ ํ†ตํ•ด์„œ ์ตํžˆ์‹œ๊ฒŒ ๋  ๊ฒƒ์ž…๋‹ˆ๋‹ค. 

์ƒ์„ธํ•œ ์ด๋ก  ์„ค๋ช… ๋ฐ ์‹ค์Šต์„ ํ†ตํ•ด ๋ฐ์ดํ„ฐ ๊ฐ€๊ณต/๋ถ„์„ ๋ฐ ML ๊ตฌํ˜„ ์—ญ๋Ÿ‰์„ ํ‚ค์šธ ์ˆ˜ ์žˆ๋„๋ก ๊ตฌ์„ฑํ•˜์˜€์Šต๋‹ˆ๋‹ค.


์—ฌ๋Ÿฌ๋ถ„์ด ์ง๋ฉดํ•  ๋ฌธ์ œ๋ฅผ 
ํ•ด๊ฒฐํ•ด๋“œ๋ฆฝ๋‹ˆ๋‹ค.

์ŠคํŒŒํฌ ๊ธฐ๋ฐ˜์—์„œ ๋จธ์‹ ๋Ÿฌ๋‹ ๋ชจ๋ธ์„ ๊ตฌํ˜„ํ•˜๊ธฐ๋Š” ์‰ฝ์ง€ ์•Š์Šต๋‹ˆ๋‹ค. ๋ฐ”๋กœ ์ŠคํŒŒํฌ ์•„ํ‚คํ…์ฒ˜ ํŠน์ˆ˜์„ฑ์— ๊ธฐ๋ฐ˜ํ•œ ๋…ํŠนํ•œ ๋จธ์‹ ๋Ÿฌ๋‹ API์™€ ํ”„๋ ˆ์ž„์›Œํฌ, ๊ทธ๋ฆฌ๊ณ  SQL์— ๊ธฐ๋ฐ˜ํ•œ ๋ฐ์ดํ„ฐ ์ฒ˜๋ฆฌ ๋“ฑ ๊ธฐ์กด ๋ฐ์ดํ„ฐ ์‚ฌ์ด์–ธํ‹ฐ์ŠคํŠธ๋‚˜ ๋จธ์‹  ๋Ÿฌ๋‹ ์ „๋ฌธ๊ฐ€๋“ค์ด ๊ฒช์–ด๋ณด์ง€ ๋ชปํ•œ ๋งŽ์€ ๋ฌธ์ œ์— ๋ด‰์ฐฉํ•˜๊ธฐ ๋•Œ๋ฌธ์ž…๋‹ˆ๋‹ค.

๋ณธ ๊ฐ•์˜, ์ŠคํŒŒํฌ ๋จธ์‹ ๋Ÿฌ๋‹ ์™„๋ฒฝ ๊ฐ€์ด๋“œ๋ฅผ ํ†ตํ•ด ์—ฌ๋Ÿฌ๋ถ„์ด ๋ด‰์ฐฉํ•œ ๋ฌธ์ œ๋ฅผ ํ•ด๊ฒฐํ•˜๋Š” ๋Šฅ๋ ฅ์„ ๊ธธ๋Ÿฌ๋“œ๋ฆฌ๊ฒ ์Šต๋‹ˆ๋‹ค.

'์ŠคํŒŒํฌ ๋จธ์‹ ๋Ÿฌ๋‹ ์™„๋ฒฝ ๊ฐ€์ด๋“œ - Part 1' ๊ฐ•์˜ ์ „๋ฐ˜๋ถ€๋Š”

๊ฐ•์˜ ์ „๋ฐ˜๋ถ€๋Š” ์ŠคํŒŒํฌ Machine Learning Framework์„ ๊ตฌ์„ฑํ•˜๋Š” ๋‹ค์–‘ํ•œ ์š”์†Œ๋“ค์ธ DataFrame, SQL, Estimator, Transformer, Pipeline, Evaluator ๋“ฑ์— ๋Œ€ํ•ด์„œ ์ƒ์„ธํ•œ ์ด๋ก  ์„ค๋ช…๊ณผ ํ’๋ถ€ํ•œ ์‹ค์Šต์œผ๋กœ ๊ตฌ์„ฑ๋˜์–ด ์žˆ์Šต๋‹ˆ๋‹ค. ์ด๋ฅผ ํ†ตํ•ด ์—ฌ๋Ÿฌ๋ถ„์€ Spark์—์„œ ML ๋ชจ๋ธ์„ ์‰ฝ๊ณ  ๋น ๋ฅด๊ฒŒ ๊ตฌํ˜„ํ•˜์‹ค ์ˆ˜ ์žˆ์„ ๊ฒƒ์ž…๋‹ˆ๋‹ค.

๋˜ํ•œ ์ŠคํŒŒํฌ์—์„œ XGBoost์™€ LightGB์„ ์‚ฌ์šฉํ•˜๋Š” ๋ฐฉ๋ฒ•, ๋ฒ ์ด์ง€์•ˆ ์ตœ์ ํ™”์— ๊ธฐ๋ฐ˜ํ•œ HyperOpt๋ฅผ ์ด์šฉํ•˜์—ฌ ํ•˜์ดํผ ํŒŒ๋ผ๋ฏธํ„ฐ๋ฅผ ํŠœ๋‹ํ•˜๋Š” ๋ฐฉ๋ฒ•์— ๋Œ€ํ•ด์„œ ์ž์„ธํžˆ ์„ค๋ช… ๋“œ๋ฆฌ๊ฒ ์Šต๋‹ˆ๋‹ค. 

'์ŠคํŒŒํฌ ๋จธ์‹ ๋Ÿฌ๋‹ ์™„๋ฒฝ ๊ฐ€์ด๋“œ - Part 1' ๊ฐ•์˜ ํ›„๋ฐ˜๋ถ€๋Š”

๊ฐ•์˜ ํ›„๋ฐ˜๋ถ€๋Š” ์บ๊ธ€์˜ Instacart Market Basket Analysis ๊ฒฝ์—ฐ ๋Œ€ํšŒ ์‹ค์Šต์„ ํ†ตํ•ด์„œ ์—ฌ๋Ÿฌ๋ถ„์˜ ์‹ค์ „ ๋ฐ์ดํ„ฐ ๊ฐ€๊ณต/๋ถ„์„ ๋Šฅ๋ ฅ๊ณผ ๋จธ์‹ ๋Ÿฌ๋‹ ๋ชจ๋ธ ๊ตฌํ˜„ ๋Šฅ๋ ฅ์„ ๋™์‹œ์— ํ–ฅ์ƒ ์‹œ์ผœ ๋“œ๋ฆด ๊ฒƒ์ž…๋‹ˆ๋‹ค. ์บ๊ธ€ Instacart ๊ฒฝ์—ฐ๋Œ€ํšŒ๋Š” ๋‚œ์ด๋„ ๋†’์€ ๊ฒฝ์—ฐ์ด๋ฉฐ, ํŠนํžˆ ๋ฐ์ดํ„ฐ ์„ธํŠธ๊ฐ€ ์ „์ž ์ƒ๊ฑฐ๋ž˜์˜ ์ฃผ๋ฌธ ์ฒ˜๋ฆฌ ํ…Œ์ด๋ธ”๋“ค(์ƒํ’ˆ, ์ฃผ๋ฌธ, ์ฃผ๋ฌธ ์ƒํ’ˆ)๋กœ ๊ตฌ์„ฑ๋˜์–ด ์žˆ์Šต๋‹ˆ๋‹ค.

ํ•ด๋‹น ๋ฐ์ดํ„ฐ ์„ธํŠธ๋ฅผ ํ†ตํ•ด SQL ๊ธฐ๋ฐ˜์—์„œ ์—…๋ฌด ๋ฐ์ดํ„ฐ๋ฅผ ์–ด๋–ป๊ฒŒ ๊ฐ€๊ณตํ•˜๊ณ  ๋ถ„์„ํ•˜๋ฉฐ Feature Engineering์„ ์ˆ˜ํ–‰ํ•˜๋Š”์ง€, ๋˜ํ•œ ์—…๋ฌด์—์„œ ๋ถ„์„ ๋„๋ฉ”์ธ์„ ์–ด๋–ป๊ฒŒ ๋„์ถœํ•˜๋Š”์ง€, ๊ทธ๋ฆฌ๊ณ  ์ด๋ ‡๊ฒŒ ๋„์ถœ๋œ Feature ๋“ค์„ ๊ธฐ๋ฐ˜์œผ๋กœ ์–ด๋–ป๊ฒŒ ๋ชจ๋ธ์„ ์ƒ์„ฑํ•˜๋Š” ์ง€์— ๋Œ€ํ•ด์„œ ์ƒ์„ธํ•˜๊ฒŒ ๋ฐฐ์šฐ์‹œ๊ฒŒ ๋  ๊ฒƒ ์ž…๋‹ˆ๋‹ค.   

์ด๋ฒˆ์— ์ถœ์‹œํ•˜๋Š” '์ŠคํŒŒํฌ ๋จธ์‹ ๋Ÿฌ๋‹ ์™„๋ฒฝ ๊ฐ€์ด๋“œ' ๊ฐ•์˜๋Š” Part 1์ž…๋‹ˆ๋‹ค. Part 2 ๊ฐ•์˜๋Š” ์ถ”ํ›„์— ์ถœ์‹œ ์˜ˆ์ •์ด๋ฉฐ, ํ…์ŠคํŠธ ๋ถ„์„, ์ถ”์ฒœ(Recommendation), ๊ทธ๋ฆฌ๊ณ  TimeSeries ๋ถ„์„์„ ๋‹ค๋ฃฐ ์˜ˆ์ •์ž…๋‹ˆ๋‹ค.

๐Ÿ’ป ์ˆ˜๊ฐ• ์ „ ํ™•์ธํ•ด์ฃผ์„ธ์š”!

  • ๋ณธ ๊ฐ•์˜์˜ ์‹ค์Šต ์ฝ”๋“œ๋Š” ๋ชจ๋‘ Python ๊ธฐ๋ฐ˜์œผ๋กœ ๋˜์–ด ์žˆ์Šต๋‹ˆ๋‹ค. Scala๋Š” ๋‹ค๋ฃจ์ง€ ์•Š์œผ๋‹ˆ ๊ฐ•์˜ ์„ ํƒ ์ „ ์ฐธ์กฐ ๋ถ€ํƒ๋“œ๋ฆฝ๋‹ˆ๋‹ค. 

์‹ค์Šต ํ™˜๊ฒฝ์„ 
ํ™•์ธํ•ด์ฃผ์„ธ์š”. 

์‹ค์Šต์€ Databricks(๋ฐ์ดํ„ฐ๋ธŒ๋ฆญ์Šค)๋ฅผ ์ด์šฉํ•ฉ๋‹ˆ๋‹ค. Databricks๋Š” Spark๋ฅผ ์„ค์น˜ํ•˜์ง€ ์•Š๊ณ ๋„ ํด๋ผ์šฐ๋“œ ์ƒ์—์„œ Spark ๊ธฐ๋ฐ˜์˜ ์• ํ”Œ๋ฆฌ์ผ€์ด์…˜์„ ๋งŒ๋“ค ์ˆ˜ ์žˆ๋Š” ๋…ธํŠธ๋ถ ํ™˜๊ฒฝ์„ ์ œ๊ณตํ•ฉ๋‹ˆ๋‹ค.

Databricks๋Š” Community ๋ฒ„์ „์œผ๋กœ ๊ณต์‹์ ์œผ๋กœ 14์ผ๊ฐ„ ๋ฌด๋ฃŒ ์‚ฌ์šฉ์ด ๊ฐ€๋Šฅํ•ฉ๋‹ˆ๋‹ค.
๊ทธ๋ฆฌ๊ณ  ์„น์…˜ 0์˜ 'Databricks์—์„œ Spark ํด๋Ÿฌ์Šคํ„ฐ ๊ด€๋ฆฌํ•˜๊ธฐ ๋ฐ ๊ฐ€์ž… 2์ฃผ ํ›„์—๋„ Databricks ์‚ฌ์šฉํ•˜๊ธฐ' ๊ฐ•์˜ ์˜์ƒ์—์„œ 14์ผ ์ดํ›„์—๋„ ๋ฌด๋ฃŒ๋กœ ๊ณ„์† ์‚ฌ์šฉํ•  ์ˆ˜ ์žˆ๋Š” ๋ฐฉ๋ฒ•์— ๋Œ€ํ•ด์„œ ๋ง์”€๋“œ๋ฆฌ๊ณ  ์žˆ์œผ๋‹ˆ ๊ผฌ~์˜ฅ ํ•ด๋‹น ์˜์ƒ์„ ํ™•์ธ ๋ถ€ํƒ๋“œ๋ฆฝ๋‹ˆ๋‹ค(Databricks Community ๋ฒ„์ „์— ๋Œ€ํ•œ ์„ค๋ช…์€ ๋งํฌ๋ฅผ ์ฐธ์กฐํ•ด ์ฃผ์‹ญ์‹œ์˜ค).

๊ฐ•์˜ ์‹ค์Šต ์ฝ”๋“œ์™€ ๊ฐ•์˜ ์„ค๋ช… ์ž๋ฃŒ๋Š” '์‹ค์Šต์ฝ”๋“œ์™€ ์„ค๋ช…์ž๋ฃŒ ๋‹ค์šด๋กœ๋“œ ๋ฐ›๊ธฐ'์—์„œ ๋‹ค์šด๋กœ๋“œ ๋ฐ›์œผ์‹ค ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.


์„ ์ˆ˜ ์ง€์‹์ด 
ํ•„์š”ํ•œ ๊ฐ•์˜์ž…๋‹ˆ๋‹ค.

๋ณธ ๊ฐ•์˜๋Š” ์ˆ˜๊ฐ•์ƒ ๋ถ„๋“ค์ด ํŒŒ์ด์ฌ ๋จธ์‹ ๋Ÿฌ๋‹ ์™„๋ฒฝ ๊ฐ€์ด๋“œ์˜ 5์žฅ(ํšŒ๊ท€) ๋˜๋Š” ์ด์— ์ค€ํ•˜๋Š” ์ง€์‹์„ ๊ฐ€์ง€๊ณ  ์žˆ๋Š” ๊ฒƒ์œผ๋กœ, ๋˜ํ•œ SQL์— ๋Œ€ํ•œ ๋งค์šฐ ๊ธฐ๋ณธ์ ์ธ ๋ถ€๋ถ„์€ ์•„์‹œ๋Š” ๊ฒƒ์œผ๋กœ ๊ฐ„์ฃผํ•˜๊ณ  ๊ตฌ์„ฑ๋˜์—ˆ์œผ๋‹ˆ ๊ฐ•์˜ ์„ ํƒ์‹œ ์œ„ ์‚ฌํ•ญ ์ฐธ์กฐ ๋ถ€ํƒ๋“œ๋ฆฝ๋‹ˆ๋‹ค.

Spark๋Š” ๊ธฐ๋ณธ์ ์ธ ๋ถ€๋ถ„์„ ์•„์‹œ๋ฉด ์ข‹์ง€๋งŒ, ๋ชฐ๋ผ๋„ ๊ฐ•์˜๋ฅผ ๋”ฐ๋ผ๊ฐ€์‹œ๋Š” ๋ฐ ๋ฌธ์ œ๊ฐ€ ์—†์œผ์‹ค ๊ฒƒ์ž…๋‹ˆ๋‹ค.   

์„ ์ˆ˜ ๊ฐ•์˜๋ฅผ ํ™•์ธํ•ด์ฃผ์„ธ์š”!

ํŒŒ์ด์ฌ ๋จธ์‹ ๋Ÿฌ๋‹ ์™„๋ฒฝ ๊ฐ€์ด๋“œ

์ด๋ก  ์œ„์ฃผ์˜ ๋จธ์‹ ๋Ÿฌ๋‹ ๊ฐ•์˜๋Š” ๊ทธ๋งŒ,
๋จธ์‹ ๋Ÿฌ๋‹์˜ ํ•ต์‹ฌ ๊ฐœ๋…๋ถ€ํ„ฐ ์‹ค์ „ ์—ญ๋Ÿ‰๊นŒ์ง€ ์‰ฝ๊ณ  ์ •ํ™•ํ•˜๊ฒŒ.

์ง€์‹๊ณต์œ ์ž์˜ ์ธํ„ฐ๋ทฐ๊ฐ€ ๊ถ๊ธˆํ•˜๋‹ค๋ฉด? (ํด๋ฆญ)

์ด๋Ÿฐ ๋ถ„๋“ค๊ป˜
์ถ”์ฒœ๋“œ๋ ค์š”!

ํ•™์Šต ๋Œ€์ƒ์€
๋ˆ„๊ตฌ์ผ๊นŒ์š”?

  • ์ŠคํŒŒํฌ๋ฅผ ์ด์šฉํ•˜์—ฌ ๋จธ์‹ ๋Ÿฌ๋‹์„ ๊ตฌํ˜„ํ•˜๊ณ ์ž ํ•˜์‹œ๋Š” ๋ถ„

  • ๋Œ€์šฉ๋Ÿ‰ ๋ฐ์ดํ„ฐ ๊ธฐ๋ฐ˜์—์„œ ๋จธ์‹ ๋Ÿฌ๋‹์„ ๊ตฌํ˜„ํ•˜๊ณ ์ž ํ•˜์‹œ๋Š” ๋ถ„

  • SQL์„ ์ด์šฉํ•˜์—ฌ ๋จธ์‹ ๋Ÿฌ๋‹์„ ์œ„ํ•œ ๋ฐ์ดํ„ฐ ์ฒ˜๋ฆฌ ๊ธฐ๋ฒ•์„ ํ–ฅ์ƒ์‹œํ‚ค๊ธฐ๋ฅผ ์›ํ•˜์‹œ๋Š” ๋ถ„

  • ์‹ค์ „์—์„œ ์›ํ•˜๋Š” ํ˜•ํƒœ๋กœ ๋ฐ์ดํ„ฐ๋ฅผ ๊ฐ€๊ณตํ•˜๊ณ  ์ด๋ฅผ ๊ธฐ๋ฐ˜์œผ๋กœ ML ๋ชจ๋ธ์„ ์ƒ์„ฑํ•˜๋Š” ๋ชจ๋“  ๊ณผ์ •์„ ์ตํžˆ๊ธฐ ์›ํ•˜์‹œ๋Š” ๋ถ„

  • ๋ฐ์ดํ„ฐ ๋ถ„์„๊ณผ Feature Engineering ๋Šฅ๋ ฅ ๊ทธ๋ฆฌ๊ณ  ML ๊ตฌํ˜„์„ ํ•จ๊ป˜ ํ–ฅ์ƒ์‹œํ‚ค๊ณ  ์‹ถ์œผ์‹  ๋ถ„

์„ ์ˆ˜ ์ง€์‹,
ํ•„์š”ํ• ๊นŒ์š”?

  • ํŒŒ์ด์ฌ ๋จธ์‹ ๋Ÿฌ๋‹ ์™„๋ฒฝ๊ฐ€์ด๋“œ์˜ 5์žฅ(ํšŒ๊ท€) ๊นŒ์ง€ ์ดํ•ด ๋˜๋Š” ์ด์— ์ค€ํ•˜๋Š” ์„ ์ˆ˜ ์ง€์‹

  • SQL ๊ธฐ๋ณธ ์ดํ•ด

์•ˆ๋…•ํ•˜์„ธ์š”
๊ถŒ ์ฒ ๋ฏผ์ž…๋‹ˆ๋‹ค.

24,730

๋ช…

์ˆ˜๊ฐ•์ƒ

1,129

๊ฐœ

์ˆ˜๊ฐ•ํ‰

3,907

๊ฐœ

๋‹ต๋ณ€

4.9

์ 

๊ฐ•์˜ ํ‰์ 

13

๊ฐœ

๊ฐ•์˜

(์ „) ์—”์ฝ”์•„ ์ปจ์„คํŒ…

(์ „) ํ•œ๊ตญ ์˜ค๋ผํด

AI ํ”„๋ฆฌ๋žœ์„œ ์ปจ์„คํ„ดํŠธ

ํŒŒ์ด์ฌ ๋จธ์‹ ๋Ÿฌ๋‹ ์™„๋ฒฝ ๊ฐ€์ด๋“œ ์ €์ž

์ปค๋ฆฌํ˜๋Ÿผ

์ „์ฒด

117๊ฐœ โˆ™ (24์‹œ๊ฐ„ 27๋ถ„)

ํ•ด๋‹น ๊ฐ•์˜์—์„œ ์ œ๊ณต:

์ˆ˜์—…์ž๋ฃŒ
๊ฐ•์˜ ๊ฒŒ์‹œ์ผ: 
๋งˆ์ง€๋ง‰ ์—…๋ฐ์ดํŠธ์ผ: 

์ˆ˜๊ฐ•ํ‰

์ „์ฒด

24๊ฐœ

4.9

24๊ฐœ์˜ ์ˆ˜๊ฐ•ํ‰

  • freedom07

    โˆ™

    ์ˆ˜๊ฐ•ํ‰ 7

    โˆ™

    ํ‰๊ท  ํ‰์  5.0

    5

    93% ์ˆ˜๊ฐ• ํ›„ ์ž‘์„ฑ

    ํŒŒ์ด์ฌ ๋จธ์‹ ๋Ÿฌ๋‹ ์™„๋ฒฝ๊ฐ€์ด๋“œ ํ†ตํ•ด์„œ ๊ถŒ์ฒ ๋ฏผ์„ ์ƒ๋‹˜์„ ์ฒ˜์Œ ์•Œ๊ฒŒ ๋˜์—ˆ์Šต๋‹ˆ๋‹ค. ๊ทธ ๊ฐ•์˜๋ฅผ ํ†ตํ•ด์„œ ๋น„์ „๊ณต์ž์˜€๋˜ ์ €๋Š” ํฌ๊ธฐํ•˜๋ ค๊ณ  ํ–ˆ๋˜ ์ด ๋ถ„์•ผ๋ฅผ ํฌ๊ธฐํ•˜์ง€ ์•Š์„ ์ˆ˜ ์žˆ์—ˆ์Šต๋‹ˆ๋‹ค. ํ˜„์žฌ ์ด ๋ถ„์•ผ์—์„œ ์ผ์„ ํ•˜๋ฉด์„œ ์ด๋ ‡๊ฒŒ ์ธํ”„๋Ÿฐ ๊ฐ•์˜๋ฅผ ๋“ค์œผ๋ฉฐ ๊ณต๋ถ€๋„ ๊พธ์ค€ํžˆ ํ•˜๊ณ  ์žˆ์Šต๋‹ˆ๋‹ค. ์„ ์ƒ๋‹˜๊ป˜ ๊ฐ์‚ฌํ•˜๋‹ค๋Š” ๋ง์”€์„ ์ „ํ•˜๊ณ  ์‹ถ์–ด์„œ ์ฒ˜์Œ์— ์งˆ๋ฌธ๋‹ต๋ณ€ ์‚ฌ์•ˆ์— ์„ ์ƒ๋‹˜๊ป˜ ๊ฐ์‚ฌํ•˜๋‹ค๋Š” ๋ง์”€์„ ๋“œ๋ ธ์—ˆ๋Š”๋ฐ, ์„ ์ƒ๋‹˜๊ป˜์„œ ๊พธ์ค€ํžˆ ํ•˜๋ฉด ๋…ธ๋ ฅํ•œ ๋ฐ”๋ฅผ ์ด๋ฃฐ ์ˆ˜ ์žˆ์„ ๊ฑฐ๋ผ๊ณ  ์‘์›ํ•˜๋ฉด์„œ ๋ง์”€ํ•ด์ฃผ์…จ์Šต๋‹ˆ๋‹ค. ์•ž์œผ๋กœ๋„ ์„ ์ƒ๋‹˜๊ป˜์„œ ๊ฐ•์˜ํ•˜์‹œ๋Š” ๊ฒƒ ๊พธ์ค€ํžˆ ๋“ค์„ ์˜ˆ์ •์ž…๋‹ˆ๋‹ค. ^^ใ…Žใ…Ž ๊ทธ๋งŒํผ ์ •๋ง ์ž˜ ๊ฐ€๋ฅด์ณ์ฃผ์‹ญ๋‹ˆ๋‹ค. ๊ถŒ์ฒ ๋ฏผ ์„ ์ƒ๋‹˜ ์ด ์ž๋ฆฌ๋ฅผ ๋นŒ๋Ÿฌ, ์ง„์‹ฌ์œผ๋กœ ์ •๋ง ๊ฐ์‚ฌํ•ฉ๋‹ˆ๋‹ค.

    • ๊ถŒ ์ฒ ๋ฏผ
      ์ง€์‹๊ณต์œ ์ž

      ์ด๋ ‡๊ฒŒ ๊ฐ€์Šด ๋ญ‰ํดํ•œ ์ˆ˜๊ฐ•ํ‰์„ ๋‚จ๊ฒจ ์ฃผ์‹œ๋‹ค๋‹ˆ ์ œ๊ฐ€ ๋” ๊ฐ๋ช… ๋ฐ›์•˜์Šต๋‹ˆ๋‹ค. ๊ฐ•์˜๋ฅผ ๋งŒ๋“œ๋Š” ์ˆ˜๊ณ ๋ฅผ ํ•œ ์ˆœ๊ฐ„์— ๋ณด์ƒ๋ฐ›๋Š” ๊ธ€์ด์—ฌ์„œ ์ œ๊ฐ€ ์˜คํžˆ๋ ค ๊ฐ์‚ฌ๋“œ๋ ค์•ผ ํ•  ๊ฒƒ ๊ฐ™์Šต๋‹ˆ๋‹ค. ์•ž์œผ๋กœ๋„ ๊ณ„์† ์ด๋ ‡๊ฒŒ ์ •์ง„ํ•˜์‹ ๋‹ค๋ฉด, ์›ํ•˜๋Š” ๋ชจ๋“  ์ผ ํ™•์‹คํžˆ ๋‹ค ์„ฑ์ทจ ํ•˜์‹ค ๊ฒƒ์ž…๋‹ˆ๋‹ค. ๊ฐ์‚ฌํ•ฉ๋‹ˆ๋‹ค.

  • egs41

    โˆ™

    ์ˆ˜๊ฐ•ํ‰ 53

    โˆ™

    ํ‰๊ท  ํ‰์  5.0

    5

    10% ์ˆ˜๊ฐ• ํ›„ ์ž‘์„ฑ

    ๊ฐ•์‚ฌ๋‹˜์˜ ๋”•์…˜๊ณผ ๋ชฉ์†Œ๋ฆฌ์— ์ง‘์ค‘ํ•˜๊ธฐ ์ข‹์•˜๊ณ , ์ปจํ…์ธ  ๋˜ํ•œ ํƒ„ํƒ„ํ•ฉ๋‹ˆ๋‹ค. ์•ž์œผ๋กœ๋„ ์ข‹์€ ๊ฐ•์˜ ๋งŒ๋“ค์–ด์ฃผ์„ธ์š”. ๊ฐ์‚ฌํ•ฉ๋‹ˆ๋‹ค.

    • kjo19990606

      โˆ™

      ์ˆ˜๊ฐ•ํ‰ 8

      โˆ™

      ํ‰๊ท  ํ‰์  4.9

      5

      100% ์ˆ˜๊ฐ• ํ›„ ์ž‘์„ฑ

      ๋•๋ถ„์— spark์— ๋Œ€ํ•ด์„œ ์•Œ๊ฒŒ๋˜์—ˆ๊ณ  ์บ๊ธ€๋„์ „์—๋„ ์ž์‹ ๊ฐ์„ ์–ป๊ฒŒ ๋˜์—ˆ์Šค๋นˆ๋‹ค ๊ฐ์‚ฌํ•ฉ๋‹ˆ๋‹ค !

      • ๋ฐ‘๋ฐ”๋‹ฅ๊ฐœ๋ฐœ์ž

        โˆ™

        ์ˆ˜๊ฐ•ํ‰ 12

        โˆ™

        ํ‰๊ท  ํ‰์  5.0

        5

        54% ์ˆ˜๊ฐ• ํ›„ ์ž‘์„ฑ

        ๊ถŒ์ฒ ๋ฏผ๋‹˜ ๊ฐ•์˜ ์‹œ๋ฆฌ์ฆˆ๋ฅผ ์ญ‰ ๋“ค์–ด์˜จ ์ˆ˜๊ฐ•์ƒ์ž…๋‹ˆ๋‹ค! ์—ฌ์ „ํžˆ ์–‘์งˆ์˜ ๊ฐ•์˜๋ฅผ ์ œ๊ณตํ•ด์ฃผ์…”์„œ ๊ฐ์‚ฌํ•ฉ๋‹ˆ๋‹ค! ๊ทธ๋ฆฌ๊ณ  Spark ๊ฐ•์˜๊ฐ€ Scala, Java๋กœ ๊ตฌ์„ฑ๋œ ๊ฐ•์˜๋“ค์„ ๋ช‡ ๋ฒˆ ๋ณด์•˜์ง€๋งŒ Python์œผ๋กœ Spark๋ฅผ ์•Œ๋ ค์ฃผ์‹œ๋Š” ๊ฐ•์˜๋Š” ์ฒ˜์Œ์ด์–ด์„œ ๋” ์ข‹์•˜๋˜ ๊ฒƒ ๊ฐ™๋„ค์š”! ์•„์ง ์™„๊ฐ•ํ•˜์ง€๋Š” ์•Š์•˜์ง€๋งŒ, ์—ฌ์ „ํžˆ ๊ฐ„๋‹จํ•œ ๋ฌธ๋ฒ•๋„ ์ตœ๋Œ€ํ•œ ์‰ฝ๊ฒŒ ์•Œ๋ ค์ฃผ์‹œ๋ ค๊ณ  ํ•˜๋Š” ๊ฒŒ ๊ฐ€์žฅ ์ข‹๋„ค์š”! ๊ทธ๋ฆฌ๊ณ  ๋ฐ˜๋ณต ์ˆ™๋‹ฌ์„ ์œ ๋„ํ•˜๊ธฐ ์œ„ํ•ด ๋‹ค์–‘ํ•œ ์‹ค์Šต์ž๋ฃŒ๋ฅผ ์ œ๊ณตํ•ด์ฃผ์‹œ๋Š” ๊ฒƒ๋„ ์ข‹์Šต๋‹ˆ๋‹ค! ์•ž์œผ๋กœ ๋‹ค๋ฅธ ๊ฐ•์˜๋“ค๋„ ๊ธฐ๋Œ€๊ฐ€ ๋ฉ๋‹ˆ๋‹ค!

        • ์ธ๋””์ฆˆ

          โˆ™

          ์ˆ˜๊ฐ•ํ‰ 1

          โˆ™

          ํ‰๊ท  ํ‰์  5.0

          5

          100% ์ˆ˜๊ฐ• ํ›„ ์ž‘์„ฑ

          ์ฐจ๊ทผ์ฐจ๊ทผ ์ž˜ ์•Œ๋ ค์ฃผ์…”์„œ ๊ฐ์‚ฌํ•ฉ๋‹ˆ๋‹ค

          ๊ถŒ ์ฒ ๋ฏผ๋‹˜์˜ ๋‹ค๋ฅธ ๊ฐ•์˜

          ์ง€์‹๊ณต์œ ์ž๋‹˜์˜ ๋‹ค๋ฅธ ๊ฐ•์˜๋ฅผ ๋งŒ๋‚˜๋ณด์„ธ์š”!

          ๋น„์Šทํ•œ ๊ฐ•์˜

          ๊ฐ™์€ ๋ถ„์•ผ์˜ ๋‹ค๋ฅธ ๊ฐ•์˜๋ฅผ ๋งŒ๋‚˜๋ณด์„ธ์š”!

          โ‚ฉ69,300

          30%

          โ‚ฉ99,000