์ฑ„๋„ํ†ก ์•„์ด์ฝ˜

๋ชจ๋‘๋ฅผ ์œ„ํ•œ ๋”ฅ๋Ÿฌ๋‹ - Deep Reinforcement Learning

ํ™์ฝฉ๊ณผ๊ธฐ๋Œ€ ๊น€์„ฑํ›ˆ ๊ต์ˆ˜๋‹˜์˜ "๋ชจ๋‘๋ฅผ ์œ„ํ•œ ๋”ฅ๋Ÿฌ๋‹" ๊ฐ•์ขŒ ๋‘๋ฒˆ์งธ ์‹œ์ฆŒ์œผ๋กœ '๊ฐ•ํ™”ํ•™์Šต' ์— ๋Œ€ํ•ด ํ•™์Šตํ•ด ๋ด…๋‹ˆ๋‹ค.

Thumbnail

์ค‘๊ธ‰์ž๋ฅผ ์œ„ํ•ด ์ค€๋น„ํ•œ
[๋ฐ์ดํ„ฐ ๋ถ„์„] ๊ฐ•์˜์ž…๋‹ˆ๋‹ค.

์ด๋Ÿฐ ๊ฑธ ๋ฐฐ์šธ ์ˆ˜ ์žˆ์–ด์š”

  • Reinforcement Learning (๊ฐ•ํ™”ํ•™์Šต)

  • TensorFLow

1. ๊ฐ•์ขŒ ์†Œ๊ฐœ

๋ณธ Reinforcement Learning(๊ฐ•ํ™”ํ•™์Šต) ๊ฐ•์ขŒ๋Š” ํ™์ฝฉ๊ณผํ•™๊ธฐ์ˆ ๋Œ€ํ•™๊ต์˜ ๊น€์„ฑํ›ˆ ๊ต์ˆ˜๋‹˜์˜ '๋ชจ๋‘๋ฅผ ์œ„ํ•œ ๋”ฅ๋Ÿฌ๋‹' ์‹œ๋ฆฌ์ฆˆ์˜ ๋‘๋ฒˆ์งธ ๊ฐ•์ขŒ์ž…๋‹ˆ๋‹ค. ์•ž์„  ๊ฐ•์ขŒ๋กœ  ๊ธฐ๋ณธ์ ์ธ ๋จธ์‹ ๋Ÿฌ๋‹๊ณผ ๋”ฅ๋Ÿฌ๋‹ ๊ฐ•์ขŒ ๊ฐ€ ์žˆ์Šต๋‹ˆ๋‹ค. ์ผ์ฃผ์ผ์— ํ•œ๊ฐ•์ขŒ์”ฉ ์ฒœ์ฒœ์ด ์—…๋ฐ์ดํŠธ ์˜ˆ์ •์ž…๋‹ˆ๋‹ค.

์•ŒํŒŒ๊ณ ์™€ ์ด์„ธ๋Œ์˜ ๊ฒฝ๊ธฐ๋ฅผ ๋ณด๋ฉด์„œ ์ด์ œ ๋จธ์‹  ๋Ÿฌ๋‹์ด ์ธ๊ฐ„์ด ์ž˜ ํ•œ๋‹ค๊ณ  ์—ฌ๊ฒจ์ง„ ์ง๊ด€๊ณผ ์˜์‚ฌ ๊ฒฐ์ •๋Šฅ๋ ฅ์—์„œ๋„ ์ถฉ๋ถ„ํ•œ ๋ฐ์ดํƒ€๊ฐ€ ์žˆ์œผ๋ฉด ์–ด๋Š์ •๋„ ๋˜๋Š” ์šฐ๋ฆฌ๋ณด๋‹ค ๋” ์ž˜ํ• ์ˆ˜๋„ ์žˆ๋‹ค๋Š” ์ƒ๊ฐ์„ ๋งŽ์ด ํ•˜๊ฒŒ ๋˜์—ˆ์Šต๋‹ˆ๋‹ค. Andrew Ng ๊ต์ˆ˜๋‹˜์ด ๋ง์”€ํ•˜์‹ ๊ฒƒ ์ฒ˜๋Ÿผ ์ด๋Ÿฐ ์‹œ๋Œ€์— ๋จธ์‹  ๋Ÿฌ๋‹์„ ์ž˜ ์ดํ•ดํ•˜๊ณ  ์ž˜ ๋‹ค๋ฃฐ์ˆ˜ ์žˆ๋‹ค๋ฉด ๊ทธ์•ผ๋ง๋กœ "Super Power"๋ฅผ ๊ฐ€์ง€๊ฒŒ ๋˜๋Š” ๊ฒƒ์ด ์•„๋‹Œ๊ฐ€ ์ƒ๊ฐํ•ฉ๋‹ˆ๋‹ค.

๋” ๋งŽ์€ ๋ถ„๋“ค์ด ๋จธ์‹  ๋Ÿฌ๋‹๊ณผ ๋”ฅ๋Ÿฌ๋‹์— ๋Œ€ํ•ด ๋” ์ดํ•ดํ•˜๊ณ  ๋ณธ์ธ๋“ค์˜ ๋ฌธ์ œ๋ฅผ ์ด ๋ฉ‹์ง„ ๋„๊ตฌ๋ฅผ ์ด์šฉํ•ด์„œ ํ’€์ˆ˜ ์žˆ๊ฒŒ ํ•˜๊ธฐ์œ„ํ•ด ๋น„๋””์˜ค ๊ฐ•์˜๋ฅผ ์ค€๋น„ํ•˜์˜€์Šต๋‹ˆ๋‹ค. ๋” ๋‚˜์•„๊ฐ€ ์ด๋ก ์—๋งŒ ๊ทธ์น˜์ง€ ์•Š๊ณ  ์ตœ๊ทผ ๊ตฌ๊ธ€์ด ๊ณต๊ฐœํ•œ ๋จธ์‹ ๋Ÿฌ๋‹์„ ์œ„ํ•œ ์˜คํ”ˆ์†Œ์Šค์ธ TensorFlow๋ฅผ ์ด์šฉํ•ด์„œ ์ด๋ก ์„ ๊ตฌํ˜„ํ•ด ๋ณผ์ˆ˜ ์žˆ๋„๋ก ํ•˜์˜€์Šต๋‹ˆ๋‹ค. ์ด ๋จธ์‹ ๋Ÿฌ๋‹, ๋”ฅ๋Ÿฌ๋‹ ๊ฐ•์ขŒ๋Š” ์ˆ˜ํ•™์ด๋‚˜ ์ปดํ“จํ„ฐ ๊ณตํ•™์ ์ธ ์ง€์‹์ด ์—†์ด๋„ ์‰ฝ๊ฒŒ ๋ณผ์ˆ˜ ์žˆ๋„๋ก ๋งŒ๋“ค๋ ค๊ณ  ๋…ธ๋ ฅํ•˜์˜€์Šต๋‹ˆ๋‹ค.

2. ๋„์›€๋˜๋Š” ๋ถ„๋“ค

  • ์ธ๊ณต์ง€๋Šฅ์— ๋Œ€ํ•ด ๊ด€์‹ฌ์ด ์žˆ๋Š” ๋ˆ„๊ตฌ๋‚˜
  • ๋จธ๋‹๋Ÿฌ์‹ , ๋”ฅ๋Ÿฌ๋‹์˜ ๊ฐœ๋…์„ ์ดํ•ดํ•˜๊ณ  ์‹ถ์œผ์‹ ๋ถ„
  • ๋จธ๋‹๋Ÿฌ์‹ ์˜ ์ง์ ‘ ๊ตฌํ˜„ํ•ด๋ณด๊ณ  ์‹ถ์œผ์‹  ๋ถ„
  • ์•ž์„  ๊ธฐ๋ณธ์ ์ธ ๋จธ์‹ ๋Ÿฌ๋‹๊ณผ ๋”ฅ๋Ÿฌ๋‹ ๊ฐ•์ขŒ ๋ฅผ ํ•™์Šตํ•˜์‹  ๋ถ„
  • ๊ฐ•ํ™”ํ•™์Šต์— ๋Œ€ํ•ด ๊ด€์‹ฌ์ด ์žˆ๋Š” ๋ถ„

3. ์ฐธ๊ณ ์ž๋ฃŒ

์ด ๋น„๋””์˜ค๋Š” ์ €๋„ ์ธํ„ฐ๋„ท๋“ฑ์„ ํ†ตํ•ด ๊ณต๋ถ€ํ•˜๋ฉด์„œ ๋งŒ๋“ ๊ฒƒ์ด๋ฉฐ ์•„๋ž˜ ์ž๋ฃŒ๋ฅผ ๋งŽ์ด ์‚ฌ์šฉํ•˜์˜€์Šต๋‹ˆ๋‹ค.

4. ์ง€์‹๊ณต์œ ์ž ์†Œ๊ฐœ

๊น€์„ฑํ›ˆ
Hong Kong University of Science and Technology ์—์„œ ์ปดํ“จํ„ฐ ๊ณตํ•™์ชฝ์œผ๋กœ ์—ฐ๊ตฌ๋ฅผ ํ•˜๊ณ  ์žˆ์Šต๋‹ˆ๋‹ค. ๋น„๋””์˜ค๋‚˜ ๊ฐ•์˜์— ๋Œ€ํ•œ ์˜๊ฒฌ์ด ์žˆ์œผ์‹œ๋ฉด ์•„๋ž˜๋กœ ์ด๋ฉ”์ผ์„ ๋ณด๋‚ด ์ฃผ์‹œ๋ฉด ๋ฉ๋‹ˆ๋‹ค. hunkim+ml@gmail.com

์ด๋Ÿฐ ๋ถ„๋“ค๊ป˜
์ถ”์ฒœ๋“œ๋ ค์š”!

ํ•™์Šต ๋Œ€์ƒ์€
๋ˆ„๊ตฌ์ผ๊นŒ์š”?

  • ์ธ๊ณต์ง€๋Šฅ์— ๋Œ€ํ•ด ๊ด€์‹ฌ์ด ์žˆ๋Š” ๋ˆ„๊ตฌ๋‚˜

  • ๋จธ๋‹๋Ÿฌ์‹ , ๋”ฅ๋Ÿฌ๋‹์˜ ๊ฐœ๋…์„ ์ดํ•ดํ•˜๊ณ  ์‹ถ์œผ์‹ ๋ถ„

  • ๋จธ๋‹๋Ÿฌ์‹ ์˜ ์ง์ ‘ ๊ตฌํ˜„ํ•ด๋ณด๊ณ  ์‹ถ์œผ์‹  ๋ถ„

  • ์•ž์„  ๊ธฐ๋ณธ์ ์ธ ๋จธ์‹ ๋Ÿฌ๋‹๊ณผ ๋”ฅ๋Ÿฌ๋‹ ๊ฐ•์ขŒ ๋ฅผ ํ•™์Šตํ•˜์‹  ๋ถ„

  • ๊ฐ•ํ™”ํ•™์Šต์— ๋Œ€ํ•ด ๊ด€์‹ฌ์ด ์žˆ๋Š” ๋ถ„

์•ˆ๋…•ํ•˜์„ธ์š”
Sung Kim์ž…๋‹ˆ๋‹ค.

37,075

๋ช…

์ˆ˜๊ฐ•์ƒ

361

๊ฐœ

์ˆ˜๊ฐ•ํ‰

4.9

์ 

๊ฐ•์˜ ํ‰์ 

2

๊ฐœ

๊ฐ•์˜

์ปค๋ฆฌํ˜๋Ÿผ

์ „์ฒด

18๊ฐœ โˆ™ (3์‹œ๊ฐ„ 46๋ถ„)

๊ฐ•์˜ ๊ฒŒ์‹œ์ผ: 
๋งˆ์ง€๋ง‰ ์—…๋ฐ์ดํŠธ์ผ: 

์ˆ˜๊ฐ•ํ‰

์ „์ฒด

95๊ฐœ

5.0

95๊ฐœ์˜ ์ˆ˜๊ฐ•ํ‰

  • ๊น€์ข…์„

    โˆ™

    ์ˆ˜๊ฐ•ํ‰ 2

    โˆ™

    ํ‰๊ท  ํ‰์  5.0

    5

    100% ์ˆ˜๊ฐ• ํ›„ ์ž‘์„ฑ

    • py์ฐธ์ฐธ์ฐธ

      โˆ™

      ์ˆ˜๊ฐ•ํ‰ 2

      โˆ™

      ํ‰๊ท  ํ‰์  5.0

      5

      100% ์ˆ˜๊ฐ• ํ›„ ์ž‘์„ฑ

      ๊ฐ•ํ™”ํ•™์Šต์˜ DQN ์•Œ๊ณ ๋ฆฌ์ฆ˜์„ ์‰ฝ๊ฒŒ ์„ค๋ช…์„ ๋“ค์„ ์ˆ˜ ์žˆ์–ด์„œ ์ข‹์•˜์Šต๋‹ˆ๋‹ค.

      • kthchunjae

        โˆ™

        ์ˆ˜๊ฐ•ํ‰ 1

        โˆ™

        ํ‰๊ท  ํ‰์  5.0

        5

        33% ์ˆ˜๊ฐ• ํ›„ ์ž‘์„ฑ

        ์„ค๋ช… ์ •๋ง ์ž˜ํ•˜์‹œ๋Š” ๊ฒƒ ๊ฐ™์Šต๋‹ˆ๋‹ค. ๊ฐ์‚ฌํ•ฉ๋‹ˆ๋‹ค :)

        • ์ž„์žฌ๋ฏผ

          โˆ™

          ์ˆ˜๊ฐ•ํ‰ 9

          โˆ™

          ํ‰๊ท  ํ‰์  4.7

          5

          33% ์ˆ˜๊ฐ• ํ›„ ์ž‘์„ฑ

          • ์ „์š”์…‰

            โˆ™

            ์ˆ˜๊ฐ•ํ‰ 1

            โˆ™

            ํ‰๊ท  ํ‰์  5.0

            5

            100% ์ˆ˜๊ฐ• ํ›„ ์ž‘์„ฑ

            RL๊ณผ DQN์„ ์ดํ•ดํ•˜๋Š” ๋ฐ ์‰ฝ๊ณ  ๋ช…๋ฃŒํ•˜๊ฒŒ ์ž˜ ์„ค๋ช…์„ ํ•ด์ฃผ์…จ๋„ค์š”.

            ๋น„์Šทํ•œ ๊ฐ•์˜

            ๊ฐ™์€ ๋ถ„์•ผ์˜ ๋‹ค๋ฅธ ๊ฐ•์˜๋ฅผ ๋งŒ๋‚˜๋ณด์„ธ์š”!

            ์—ฐ๊ด€ ๋กœ๋“œ๋งต

            ๊ฐ•์˜๊ฐ€ ํฌํ•จ๋œ ๋กœ๋“œ๋งต์œผ๋กœ ํ•™์Šตํ•ด ๋ณด์„ธ์š”!

            ๋ฌด๋ฃŒ