์ธํ”„๋Ÿฐ ์˜๋ฌธ ๋ธŒ๋žœ๋“œ ๋กœ๊ณ 
์ธํ”„๋Ÿฐ ์˜๋ฌธ ๋ธŒ๋žœ๋“œ ๋กœ๊ณ 

R๋กœ ์‰ฝ๊ฒŒ ๋ฐฐ์šฐ๋Š” ๊ฐ•ํ™”ํ•™์Šต

Q-learning๋ถ€ํ„ฐ Deep Q-learning์— ๋Œ€ํ•ด ๋ฐฐ์šฐ๊ณ , ๊ฐ•ํ™”ํ•™์Šต์„ R๋กœ ๊ตฌํ˜„ํ•ด ๋ณด๋Š” ์‹œ๊ฐ„์„ ๊ฐ€์ง‘๋‹ˆ๋‹ค. Deep Q-network์„ ๋„˜์–ด์„œ Self-imitation learning๊ณผ Random Netowrk Distillation ๊นŒ์ง€ ์ „์ฒด์ ์ธ ๊ฐ•ํ™”ํ•™์Šต ๋‚ด์šฉ์„ ๋‹ค๋ฃน๋‹ˆ๋‹ค.

์ค‘๊ธ‰์ž๋ฅผ ์œ„ํ•ด ์ค€๋น„ํ•œ
[๋ฐ์ดํ„ฐ ๋ถ„์„, ๋”ฅ๋Ÿฌ๋‹ ยท ๋จธ์‹ ๋Ÿฌ๋‹] ๊ฐ•์˜์ž…๋‹ˆ๋‹ค.

์ด๋Ÿฐ ๊ฑธ ๋ฐฐ์šธ ์ˆ˜ ์žˆ์–ด์š”

  • ๊ฐ•ํ™”ํ•™์Šต์ด๋ก 

  • Q-learning๋ถ€ํ„ฐ Deep Reinforcement Learning๊นŒ์ง€

  • Exploration์„ ์œ„ํ•œ ์—ฌ๋Ÿฌ ๊ฐ•ํ™”ํ•™์Šต ๊ธฐ๋ฒ•๋“ค

๐Ÿ™†๐Ÿปโ€โ™€ Q-learning๊ณผ Deep Q-learning์„ ๋„˜์–ด์„œ RND๊นŒ์ง€๐Ÿ™†๐Ÿปโ€โ™‚

๐Ÿ—’ ๊ฐ•์˜์†Œ๊ฐœ

์•ŒํŒŒ๊ณ ๋กœ ์‹œ์ž‘๋œ ๊ฐ•ํ™”ํ•™์Šต์˜ ๋ถ, ๊ฐ•ํ™”ํ•™์Šต์€ ์•ŒํŒŒ๊ณ ๊ฐ€ ๋‚˜์˜ค๊ธฐ ์˜ค๋ž˜์ „๋ถ€ํ„ฐ ์กด์žฌํ–ˆ๋˜ ์•Œ๊ณ ๋ฆฌ์ฆ˜์ด๋ผ๋Š” ์‚ฌ์‹ค ์•Œ๊ณ  ๊ณ„์…จ๋‚˜์š”?

๊ฐ•ํ™”ํ•™์Šต์€ ์ผ๋ฐ˜์ ์œผ๋กœ ๊ณต๋ถ€๋ฅผ ํ•˜๊ธฐ์— ์ง„์ž…์žฅ๋ฒฝ์ด ๋†’์€ ๋ถ„์•ผ๋กœ ์•Œ๋ ค์ ธ ์žˆ์Šต๋‹ˆ๋‹ค. ์•ŒํŒŒ๊ณ ๊ฐ€ ๋‚˜์˜ค๋ฉด์„œ๋ถ€ํ„ฐ ๋งŽ์€ ์‚ฌ๋žŒ๋“ค์ด ๊ด€์‹ฌ์„ ๊ฐ€์ง€๊ธฐ ์‹œ์ž‘ํ–ˆ์ง€๋งŒ, ๋‚ด์šฉ์ด ์‰ฝ์ง€ ์•Š์•„ ๊ณต๋ถ€ํ•˜๊ธฐ๊ฐ€ ์–ด๋ ต์Šต๋‹ˆ๋‹ค. ๊ฐ•ํ™”ํ•™์Šต์„ ๊ณต๋ถ€ํ•˜๊ณ  ์‹ถ์—ˆ์ง€๋งŒ ์–ด๋ ค์›Œ์„œ ์‹œ์ž‘๋„ ๋ชปํ•˜์‹  ๋ถ„์„ ์œ„ํ•ด ์ค‘์š”ํ•œ ๋ถ€๋ถ„๋งŒ ๊ณจ๋ผ ์š”์•ฝํ•ด์„œ ์•Œ๋ ค๋“œ๋ฆฝ๋‹ˆ๋‹ค. Q-learning๋ถ€ํ„ฐ DQN ๊ทธ๋ฆฌ๊ณ  DQN์„ ๋„˜์–ด์„œ ๊ฐ•ํ™”ํ•™์Šต์˜ ์ฃผ๋œ ๋ฌธ์ œ์ธ sparse reward problem๊ณผ ์ด๋ฅผ ํ•ด๊ฒฐ ํ•˜๊ธฐ ์œ„ํ•œ ์—ฌ๋Ÿฌ ์•„์ด๋””์–ด๋“ค์„ ์†Œ๊ฐœํ•ฉ๋‹ˆ๋‹ค. ์งง์€ ์‹œ๊ฐ„์•ˆ์— ๊ฐ•ํ™”ํ•™์Šต์„ ์ „์ฒด์ ์œผ๋กœ ๊ณต๋ถ€ํ•  ์ˆ˜ ์žˆ๋Š” ์ข‹์€ ๊ฐ•์˜๊ฐ€ ๋  ๊ฒƒ ์ž…๋‹ˆ๋‹ค. 

๐ŸŒˆ ๊ฐ•ํ™”ํ•™์Šต์ด ๋Œ€์ฒด ๋ฌด์—‡์ธ์ง€.

๊ฐ•ํ™”ํ•™์Šต์ด ๋Œ€์ฒด ๋ฌด์—‡์ธ์ง€, ๊ฐ•ํ™”ํ•™์Šต์—” ์–ด๋– ํ•œ ์š”์†Œ๊ฐ€ ์žˆ๊ณ  ์–ด๋–ป๊ฒŒ ํ•™์Šต์ด ์ง„ํ–‰์ด ๋˜๋Š”์ง€ ์˜ˆ๋ฅผ๋“ค์–ด ์ฐจ๊ทผ์ฐจ๊ทผ ์„ค๋ช…ํ•ฉ๋‹ˆ๋‹ค.

๐ŸŒˆ ์†์œผ๋กœ ์ง์ ‘ ํ’€์–ด๋ณด๋Š” Q-learning

๋ง๋กœ๋งŒ ์„ค๋ช…ํ•ด์„œ๋Š” ์ดํ•ด๊ฐ€ ์ž˜ ๋˜์ง€ ์•Š์•„์š”. ์†์œผ๋กœ ์ง์ ‘ Q-learing์„ ํ’€์–ด๋ณด๋ฉด์„œ ๊ฐ•ํ™”ํ•™์Šต์— ๋Œ€ํ•œ ๊ฐœ๋…์„ ์ œ๋Œ€๋กœ ์ดํ•ดํ•ด ๋ด…์‹œ๋‹ค.


๐ŸŒˆ Deep Reinforcemen learning์˜ ๊ธฐ๋ณธ์ด ๋˜๋Š” DQN

Deep reinforcement learning์˜ ๊ธฐ๋ณธ์ด๋Š” Deep Q-network (DQN)๋ถ€ํ„ฐ PerDQN์„ ํฌํ•จํ•œ ์—ฌ๋Ÿฌ DQN๋ณ€ํ˜•๋“ค, actorcritic, Self-Imitation learing ๊นŒ์ง€ ์ค‘์š”ํ•œ ๋‚ด์šฉ์„ ํ•ต์‹ฌ์ ์œผ๋กœ ์š”์•ฝํ•ฉ๋‹ˆ๋‹ค.

๐ŸŒˆ ๊ฐ•ํ™”ํ•™์Šต์˜ ์ฃผ๋œ ๋ฌธ์ œ์ธ Sparse reward problem

๊ฐ•ํ™” ํ•™์Šต์˜ ์ฃผ๋œ ๋ฌธ์ œ์ธ sparse reward problem์— ๋Œ€ํ•ด์„œ ์ด์•ผ๊ธฐ ํ•˜๊ณ  ์ด๋ฅผ ํ•ด๊ฒฐํ•˜๊ธฐ ์œ„ํ•œ ์—ฌ๋Ÿฌ ๊ธฐ๋ฒ•๋“ค์— ๋Œ€ํ•ด ์ด์•ผ๊ธฐํ•ฉ๋‹ˆ๋‹ค.

์šฐ๋ฆฌ๋Š” ์ฃผ๋กœ 'curiosity' ๋˜๋Š” 'prediction error'์— ๋Œ€ํ•ด์„œ ์ด์•ผ๊ธฐ ํ•˜๊ณ  ์ด๋“ค์„ ํ™œ์šฉํ•œ ์—ฌ๋Ÿฌ ์•Œ๊ณ ๋ฆฌ์ฆ˜์— ๋Œ€ํ•ด ์†Œ๊ฐœํ•ฉ๋‹ˆ๋‹ค.

(SIL,  Random Network Distillation ๋“ฑ)

๐ŸŒˆ R๋กœ ์ง์ ‘ ๊ตฌํ˜„ํ•ด๋ณด๋Š” DQN/ActorCritic/SIL/RND

์ง์ ‘ ์ฝ”๋“œ๋กœ ๊ตฌํ˜„ํ•ด๋ณด์ง€ ์•Š์œผ๋ฉด ์ ˆ๋ฐ˜๋งŒ ์•Œ๊ณ  ์žˆ๋Š” ๊ฑฐ๊ฒ ์ฃ  ? ๊ฐ€์žฅ ์ค‘์š”ํ•œ ๋ชจ๋ธ๋“ค์— ๋Œ€ํ•ด R๋กœ ์ง์ ‘ ๊ฐ•ํ™”ํ•™์Šต ์•Œ๊ณ ๋ฆฌ์ฆ˜์„ ์งœ๋ณด๊ณ  ๊ฒฐ๊ณผ๋ฅผ ๊ฐ™์ด ํ™•์ธํ•ด ๋ด…๋‹ˆ๋‹ค.

๊ทธ๋ฆฌ๊ณ  Exploration ์„ ์œ„ํ•œ RND๊ฐ€ ์ •๋ง ํšจ๊ณผ๊ฐ€ ์žˆ๋Š”์ง€๋„ ํ•จ๊ป˜ ํ™•์ธํ•ด ๋ณด์‹œ์ฃ .

๐Ÿ™‹๐Ÿปโ€โ™‚๏ธ ๊ฐ•์˜ ๊ด€๋ จ ์˜ˆ์ƒ ์งˆ๋ฌธ

Q. ์„ ์ˆ˜ ์ง€์‹์ด ์žˆ๋‚˜์š”?
A. ๋จธ์‹ ๋Ÿฌ๋‹, NN์— ๋Œ€ํ•œ ๊ธฐ๋ณธ์ ์ธ ๊ฐœ๋…์ด ์žˆ์œผ์‹ ๊ฒŒ ์ข‹์Šต๋‹ˆ๋‹ค.

Q. Python์œผ๋กœ ์‹ค์Šต์„ ํ•˜์ง€๋Š” ์•Š๋‚˜์š”?
A. ํ˜„์žฌ๋Š” R๋กœ ์‹ค์Šต ์ฝ”๋“œ๋ฅผ ๊ตฌํ˜„ํ•ด์„œ ๊ฐ•์˜๋ฅผ ์—…๋กœ๋“œ ํ–ˆ๊ณ , ์ถ”ํ›„์— python์œผ๋กœ ์‹ค์Šตํ•˜๋Š” ์ฝ”๋“œ๋ฅผ ์—…๋กœ๋“œ ํ•  ์˜ˆ์ •์ž…๋‹ˆ๋‹ค.(ํƒ€ ๊ฐ•์˜๋กœ ์—ฌ๋Š”๊ฒŒ ์•„๋‹ˆ๋ผ ๋ณธ ๊ฐ•์˜์— ์ถ”๊ฐ€์ ์œผ๋กœ ์—…๋กœ๋“œํ•  ์˜ˆ์ •์ž…๋‹ˆ๋‹ค)

์ด๋Ÿฐ ๋ถ„๋“ค๊ป˜
์ถ”์ฒœ๋“œ๋ ค์š”!

ํ•™์Šต ๋Œ€์ƒ์€
๋ˆ„๊ตฌ์ผ๊นŒ์š”?

  • ๊ฐ•ํ™”ํ•™์Šต ์‰ฝ๊ฒŒ ๋ฐฐ์šฐ๊ณ  ์‹ถ์œผ์‹ ๋ถ„

  • ์งง์€ ์‹œ๊ฐ„์•ˆ์— ์ „์ฒด์ ์ธ ๊ฐ•ํ™”ํ•™์Šต์„ ๋ฐฐ์šฐ๊ณ  ์‹ถ์œผ์‹ ๋ถ„

์„ ์ˆ˜ ์ง€์‹,
ํ•„์š”ํ• ๊นŒ์š”?

  • Rํ”„๋กœ๊ทธ๋ž˜๋ฐ ์ค‘๊ธ‰ ์‹ค๋ ฅ

  • Neural network์— ๋Œ€ํ•œ ๊ธฐ๋ณธ์ ์ธ ์ดํ•ด

  • ๋จธ์‹ ๋Ÿฌ๋‹์— ๋Œ€ํ•œ ๊ธฐ๋ณธ์ ์ธ ์ง€์‹

์•ˆ๋…•ํ•˜์„ธ์š”
์ฝ”์ฝ”์ž…๋‹ˆ๋‹ค.

8,192

๋ช…

์ˆ˜๊ฐ•์ƒ

489

๊ฐœ

์ˆ˜๊ฐ•ํ‰

136

๊ฐœ

๋‹ต๋ณ€

4.4

์ 

๊ฐ•์˜ ํ‰์ 

20

๊ฐœ

๊ฐ•์˜

ํ•™๋ถ€์—์„œ๋Š” ํ†ต๊ณ„ํ•™์„ ์ „๊ณตํ•˜๊ณ  ์‚ฐ์—…๊ณตํ•™(์ธ๊ณต์ง€๋Šฅ) ๋ฐ•์‚ฌ๋ฅผ ๋ฐ›๊ณ  ์—ฌ์ „ํžˆ ๊ณต๋ถ€์ค‘์ธ ๋ฐฑ์ˆ˜์ž…๋‹ˆ๋‹ค.

 

์ˆ˜์ƒ

ใ† ์ œ6ํšŒ ๋น…์ฝ˜ํ…Œ์ŠคํŠธ ๊ฒŒ์ž„์œ ์ €์ดํƒˆ ์•Œ๊ณ ๋ฆฌ์ฆ˜ ๊ฐœ๋ฐœ / ์—”์”จ์†Œํ”„ํŠธ์ƒ(2018)

ใ† ์ œ5ํšŒ ๋น…์ฝ˜ํ…Œ์ŠคํŠธ ๋Œ€์ถœ ์—ฐ์ฒด์ž ์˜ˆ์ธก ์•Œ๊ณ ๋ฆฌ์ฆ˜๊ฐœ๋ฐœ / ํ•œ๊ตญ์ •๋ณดํ†ต์‹ ์ง„ํฅํ˜‘ํšŒ์žฅ์ƒ(2017)

ใ† 2016 ๋‚ ์”จ ๋น…๋ฐ์ดํ„ฐ ์ฝ˜ํ…Œ์ŠคํŠธ/ ๊ธฐ์ƒ์‚ฐ์—… ์ง„ํฅ์›์žฅ์ƒ(2016) 

ใ† ์ œ4ํšŒ ๋น…์ฝ˜ํ…Œ์ŠคํŠธ ๋ณดํ—˜์‚ฌ๊ธฐ ์˜ˆ์ธก ์•Œ๊ณ ๋ฆฌ์ฆ˜ ๊ฐœ๋ฐœ / ๋ณธ์„ ์ง„์ถœ(2016)

ใ† ์ œ3ํšŒ ๋น…์ฝ˜ํ…Œ์ŠคํŠธ ์•ผ๊ตฌ ๊ฒฝ๊ธฐ ์˜ˆ์ธก ์•Œ๊ณ ๋ฆฌ์ฆ˜ ๊ฐœ๋ฐœ / ๋ฏธ๋ž˜์ฐฝ์กฐ๊ณผํ•™๋ถ€ ์žฅ๊ด€์ƒ(2015)

* blog : https://bluediary8.tistory.com

์ฃผ๋กœ ์—ฐ๊ตฌํ•˜๋Š” ๋ถ„์•ผ๋Š” ๋ฐ์ดํ„ฐ ์‚ฌ์ด์–ธ์Šค, ๊ฐ•ํ™”ํ•™์Šต, ๋”ฅ๋Ÿฌ๋‹ ์ž…๋‹ˆ๋‹ค.

ํฌ๋กค๋ง๊ณผ ํ…์ŠคํŠธ๋งˆ์ด๋‹์€ ํ˜„์žฌ๋Š” ์ทจ๋ฏธ๋กœ ํ•˜๊ณ ์žˆ์Šต๋‹ˆ๋‹ค :) 

ํฌ๋กค๋ง์„ ์ด์šฉํ•ด์„œ ์ธ๊ธฐ์žˆ๋Š” ์ปค๋ฎค๋‹ˆํ‹ฐ ๊ธ€๋งŒ ์ˆ˜์ง‘ํ•ด์„œ ๋ณด์—ฌ์ฃผ๋Š” ๋งˆ๋กฑ์ด๋ผ๋Š” ์•ฑ์„ ๊ฐœ๋ฐœํ•˜์˜€๊ณ 

์ „๊ตญ์˜ ๋ง›์ง‘๋ฆฌ์ŠคํŠธ์™€ ๋ธ”๋กœ๊ทธ๋ฅผ ์ˆ˜์ง‘ํ•ด์„œ ๋ง›์ง‘ ์ถ”์ฒœ ์•ฑ๋„ ๋งŒ๋“ค์—ˆ์—ˆ์ฃ  :) (์‹œ์›ํ•˜๊ฒŒ ๋ง์•„๋จน..)

์ง€๊ธˆ์€ ์ธ๊ณต์ง€๋Šฅ์„ ์—ฐ๊ตฌํ•˜๋Š” ๋ฐ•์‚ฌ๊ณผ์ •์ƒ์ž…๋‹ˆ๋‹ค.

 

 

 

 

๋”๋ณด๊ธฐ

์ปค๋ฆฌํ˜๋Ÿผ

์ „์ฒด

20๊ฐœ โˆ™ (4์‹œ๊ฐ„ 31๋ถ„)

ํ•ด๋‹น ๊ฐ•์˜์—์„œ ์ œ๊ณต:

์ˆ˜์—…์ž๋ฃŒ
๊ฐ•์˜ ๊ฒŒ์‹œ์ผ: 
๋งˆ์ง€๋ง‰ ์—…๋ฐ์ดํŠธ์ผ: 

์ˆ˜๊ฐ•ํ‰

์•„์ง ์ถฉ๋ถ„ํ•œ ํ‰๊ฐ€๋ฅผ ๋ฐ›์ง€ ๋ชปํ•œ ๊ฐ•์˜์ž…๋‹ˆ๋‹ค.
๋ชจ๋‘์—๊ฒŒ ๋„์›€์ด ๋˜๋Š” ์ˆ˜๊ฐ•ํ‰์˜ ์ฃผ์ธ๊ณต์ด ๋˜์–ด์ฃผ์„ธ์š”!