
๊ฐํํ์ต ์ ๋ฌธ์์ Deep Q-learning/Policy Gradient๊น์ง
YoungJea Oh
์ต๊ทผ ์ธ๊ณต์ง๋ฅ ๋ถ์ผ์ ๋๋ผ์ด ์ฑ๊ณผ๋ ๋ชจ๋ ๊ฐํ ํ์ต ๋ถ์ผ์์ ๋ฐํ๋๊ณ ์์ต๋๋ค. ๋ก๋ด, ์์จ ์ฃผํ ๊ธฐ์ , ์ธ๊ฐ์ ๋ฎ์ ๊ธฐ๊ณ ๋ฑ ์ง์ ํ ์ธ๊ณต ์ง๋ฅ ๊ธฐ์ ์ ํ์ ์ ์ด๋ฃจ์ด ๋ด๊ณ ์๋ ๊ฐํ ํ์ต ๊ธฐ์ ์ ์ด๋ณด์์ ์์ ์ผ๋ก ์๊ธฐ ์ฝ๊ฒ ๊ธฐ์ด์์ ๊ณ ๊ธ ์์ค๊น์ง ๋ค๋ฃจ์์ต๋๋ค.
์ค๊ธ์ด์
๋ฅ๋ฌ๋, ๊ฐํํ์ต, Python