Q-learning๋ถํฐ Deep Q-learning์ ๋ํด ๋ฐฐ์ฐ๊ณ , ๊ฐํํ์ต์ R๋ก ๊ตฌํํด ๋ณด๋ ์๊ฐ์ ๊ฐ์ง๋๋ค. Deep Q-network์ ๋์ด์ Self-imitation learning๊ณผ Random Netowrk Distillation ๊น์ง ์ ์ฒด์ ์ธ ๊ฐํํ์ต ๋ด์ฉ์ ๋ค๋ฃน๋๋ค.
๊ฐํํ์ต์ด๋ก
Q-learning๋ถํฐ Deep Reinforcement Learning๊น์ง
Exploration์ ์ํ ์ฌ๋ฌ ๊ฐํํ์ต ๊ธฐ๋ฒ๋ค
๐๐ปโโ Q-learning๊ณผ Deep Q-learning์ ๋์ด์ RND๊น์ง๐๐ปโโ
์ํ๊ณ ๋ก ์์๋ ๊ฐํํ์ต์ ๋ถ, ๊ฐํํ์ต์ ์ํ๊ณ ๊ฐ ๋์ค๊ธฐ ์ค๋์ ๋ถํฐ ์กด์ฌํ๋ ์๊ณ ๋ฆฌ์ฆ์ด๋ผ๋ ์ฌ์ค ์๊ณ ๊ณ์ จ๋์?
๊ฐํํ์ต์ ์ผ๋ฐ์ ์ผ๋ก ๊ณต๋ถ๋ฅผ ํ๊ธฐ์ ์ง์ ์ฅ๋ฒฝ์ด ๋์ ๋ถ์ผ๋ก ์๋ ค์ ธ ์์ต๋๋ค. ์ํ๊ณ ๊ฐ ๋์ค๋ฉด์๋ถํฐ ๋ง์ ์ฌ๋๋ค์ด ๊ด์ฌ์ ๊ฐ์ง๊ธฐ ์์ํ์ง๋ง, ๋ด์ฉ์ด ์ฝ์ง ์์ ๊ณต๋ถํ๊ธฐ๊ฐ ์ด๋ ต์ต๋๋ค. ๊ฐํํ์ต์ ๊ณต๋ถํ๊ณ ์ถ์์ง๋ง ์ด๋ ค์์ ์์๋ ๋ชปํ์ ๋ถ์ ์ํด ์ค์ํ ๋ถ๋ถ๋ง ๊ณจ๋ผ ์์ฝํด์ ์๋ ค๋๋ฆฝ๋๋ค. Q-learning๋ถํฐ DQN ๊ทธ๋ฆฌ๊ณ DQN์ ๋์ด์ ๊ฐํํ์ต์ ์ฃผ๋ ๋ฌธ์ ์ธ sparse reward problem๊ณผ ์ด๋ฅผ ํด๊ฒฐ ํ๊ธฐ ์ํ ์ฌ๋ฌ ์์ด๋์ด๋ค์ ์๊ฐํฉ๋๋ค. ์งง์ ์๊ฐ์์ ๊ฐํํ์ต์ ์ ์ฒด์ ์ผ๋ก ๊ณต๋ถํ ์ ์๋ ์ข์ ๊ฐ์๊ฐ ๋ ๊ฒ ์ ๋๋ค.
๊ฐํํ์ต์ด ๋์ฒด ๋ฌด์์ธ์ง, ๊ฐํํ์ต์ ์ด๋ ํ ์์๊ฐ ์๊ณ ์ด๋ป๊ฒ ํ์ต์ด ์งํ์ด ๋๋์ง ์๋ฅผ๋ค์ด ์ฐจ๊ทผ์ฐจ๊ทผ ์ค๋ช ํฉ๋๋ค.
๋ง๋ก๋ง ์ค๋ช ํด์๋ ์ดํด๊ฐ ์ ๋์ง ์์์. ์์ผ๋ก ์ง์ Q-learing์ ํ์ด๋ณด๋ฉด์ ๊ฐํํ์ต์ ๋ํ ๊ฐ๋ ์ ์ ๋๋ก ์ดํดํด ๋ด ์๋ค.
Deep reinforcement learning์ ๊ธฐ๋ณธ์ด๋ Deep Q-network (DQN)๋ถํฐ PerDQN์ ํฌํจํ ์ฌ๋ฌ DQN๋ณํ๋ค, actorcritic, Self-Imitation learing ๊น์ง ์ค์ํ ๋ด์ฉ์ ํต์ฌ์ ์ผ๋ก ์์ฝํฉ๋๋ค.
๊ฐํ ํ์ต์ ์ฃผ๋ ๋ฌธ์ ์ธ sparse reward problem์ ๋ํด์ ์ด์ผ๊ธฐ ํ๊ณ ์ด๋ฅผ ํด๊ฒฐํ๊ธฐ ์ํ ์ฌ๋ฌ ๊ธฐ๋ฒ๋ค์ ๋ํด ์ด์ผ๊ธฐํฉ๋๋ค.
์ฐ๋ฆฌ๋ ์ฃผ๋ก 'curiosity' ๋๋ 'prediction error'์ ๋ํด์ ์ด์ผ๊ธฐ ํ๊ณ ์ด๋ค์ ํ์ฉํ ์ฌ๋ฌ ์๊ณ ๋ฆฌ์ฆ์ ๋ํด ์๊ฐํฉ๋๋ค.
(SIL, Random Network Distillation ๋ฑ)
์ง์ ์ฝ๋๋ก ๊ตฌํํด๋ณด์ง ์์ผ๋ฉด ์ ๋ฐ๋ง ์๊ณ ์๋ ๊ฑฐ๊ฒ ์ฃ ? ๊ฐ์ฅ ์ค์ํ ๋ชจ๋ธ๋ค์ ๋ํด R๋ก ์ง์ ๊ฐํํ์ต ์๊ณ ๋ฆฌ์ฆ์ ์ง๋ณด๊ณ ๊ฒฐ๊ณผ๋ฅผ ๊ฐ์ด ํ์ธํด ๋ด ๋๋ค.
๊ทธ๋ฆฌ๊ณ Exploration ์ ์ํ RND๊ฐ ์ ๋ง ํจ๊ณผ๊ฐ ์๋์ง๋ ํจ๊ป ํ์ธํด ๋ณด์์ฃ .
Q. ์ ์ ์ง์์ด ์๋์?
A. ๋จธ์ ๋ฌ๋, NN์ ๋ํ ๊ธฐ๋ณธ์ ์ธ ๊ฐ๋
์ด ์์ผ์ ๊ฒ ์ข์ต๋๋ค.
Q. Python์ผ๋ก ์ค์ต์ ํ์ง๋ ์๋์?
A. ํ์ฌ๋ R๋ก ์ค์ต ์ฝ๋๋ฅผ ๊ตฌํํด์ ๊ฐ์๋ฅผ ์
๋ก๋ ํ๊ณ , ์ถํ์ python์ผ๋ก ์ค์ตํ๋ ์ฝ๋๋ฅผ ์
๋ก๋ ํ ์์ ์
๋๋ค.(ํ ๊ฐ์๋ก ์ฌ๋๊ฒ ์๋๋ผ ๋ณธ ๊ฐ์์ ์ถ๊ฐ์ ์ผ๋ก ์
๋ก๋ํ ์์ ์
๋๋ค)
ํ์ต ๋์์
๋๊ตฌ์ผ๊น์?
๊ฐํํ์ต ์ฝ๊ฒ ๋ฐฐ์ฐ๊ณ ์ถ์ผ์ ๋ถ
์งง์ ์๊ฐ์์ ์ ์ฒด์ ์ธ ๊ฐํํ์ต์ ๋ฐฐ์ฐ๊ณ ์ถ์ผ์ ๋ถ
์ ์ ์ง์,
ํ์ํ ๊น์?
Rํ๋ก๊ทธ๋๋ฐ ์ค๊ธ ์ค๋ ฅ
Neural network์ ๋ํ ๊ธฐ๋ณธ์ ์ธ ์ดํด
๋จธ์ ๋ฌ๋์ ๋ํ ๊ธฐ๋ณธ์ ์ธ ์ง์
8,192
๋ช
์๊ฐ์
489
๊ฐ
์๊ฐํ
136
๊ฐ
๋ต๋ณ
4.4
์
๊ฐ์ ํ์
20
๊ฐ
๊ฐ์
ํ๋ถ์์๋ ํต๊ณํ์ ์ ๊ณตํ๊ณ ์ฐ์ ๊ณตํ(์ธ๊ณต์ง๋ฅ) ๋ฐ์ฌ๋ฅผ ๋ฐ๊ณ ์ฌ์ ํ ๊ณต๋ถ์ค์ธ ๋ฐฑ์์ ๋๋ค.
์์
ใ ์ 6ํ ๋น ์ฝํ ์คํธ ๊ฒ์์ ์ ์ดํ ์๊ณ ๋ฆฌ์ฆ ๊ฐ๋ฐ / ์์จ์ํํธ์(2018)
ใ ์ 5ํ ๋น ์ฝํ ์คํธ ๋์ถ ์ฐ์ฒด์ ์์ธก ์๊ณ ๋ฆฌ์ฆ๊ฐ๋ฐ / ํ๊ตญ์ ๋ณดํต์ ์งํฅํํ์ฅ์(2017)
ใ 2016 ๋ ์จ ๋น ๋ฐ์ดํฐ ์ฝํ ์คํธ/ ๊ธฐ์์ฐ์ ์งํฅ์์ฅ์(2016)
ใ ์ 4ํ ๋น ์ฝํ ์คํธ ๋ณดํ์ฌ๊ธฐ ์์ธก ์๊ณ ๋ฆฌ์ฆ ๊ฐ๋ฐ / ๋ณธ์ ์ง์ถ(2016)
ใ ์ 3ํ ๋น ์ฝํ ์คํธ ์ผ๊ตฌ ๊ฒฝ๊ธฐ ์์ธก ์๊ณ ๋ฆฌ์ฆ ๊ฐ๋ฐ / ๋ฏธ๋์ฐฝ์กฐ๊ณผํ๋ถ ์ฅ๊ด์(2015)
* blog : https://bluediary8.tistory.com
์ฃผ๋ก ์ฐ๊ตฌํ๋ ๋ถ์ผ๋ ๋ฐ์ดํฐ ์ฌ์ด์ธ์ค, ๊ฐํํ์ต, ๋ฅ๋ฌ๋ ์ ๋๋ค.
ํฌ๋กค๋ง๊ณผ ํ ์คํธ๋ง์ด๋์ ํ์ฌ๋ ์ทจ๋ฏธ๋ก ํ๊ณ ์์ต๋๋ค :)
ํฌ๋กค๋ง์ ์ด์ฉํด์ ์ธ๊ธฐ์๋ ์ปค๋ฎค๋ํฐ ๊ธ๋ง ์์งํด์ ๋ณด์ฌ์ฃผ๋ ๋ง๋กฑ์ด๋ผ๋ ์ฑ์ ๊ฐ๋ฐํ์๊ณ
์ ๊ตญ์ ๋ง์ง๋ฆฌ์คํธ์ ๋ธ๋ก๊ทธ๋ฅผ ์์งํด์ ๋ง์ง ์ถ์ฒ ์ฑ๋ ๋ง๋ค์์์ฃ :) (์์ํ๊ฒ ๋ง์๋จน..)
์ง๊ธ์ ์ธ๊ณต์ง๋ฅ์ ์ฐ๊ตฌํ๋ ๋ฐ์ฌ๊ณผ์ ์์ ๋๋ค.
์ ์ฒด
20๊ฐ โ (4์๊ฐ 31๋ถ)
ํด๋น ๊ฐ์์์ ์ ๊ณต: