Inflearn brand logo image
Inflearn brand logo image
์ฑ„๋„ํ†ก ์•„์ด์ฝ˜

TensorFlow๋กœ ๋ฐฐ์šฐ๋Š” ์‹ฌ์ธต ๊ฐ•ํ™”ํ•™์Šต ์ž…๋ฌธ - Deep Reinforcement Learning

์‹ฌ์ธต ๊ฐ•ํ™”ํ•™์Šต(Deep Reinforcement Learning)์— ๋Œ€ํ•œ ํ•„์ˆ˜ ์ด๋ก  ํ•™์Šต์„ ํ†ตํ•ด ๊ฐ•ํ™”ํ•™์Šต ๊ธฐ์ดˆ ๊ฐœ๋…์„ ํƒ„ํƒ„ํžˆ ๋‹ค์ง€๊ณ , TensorFlow๋ฅผ ์ด์šฉํ•œ ์‹ค์ œ ์ฝ”๋“œ ๊ตฌํ˜„ ์‹ค์Šต์„ ํ†ตํ•ด ์‹ฌ์ธต ๊ฐ•ํ™”ํ•™์Šต์˜ ์›๋ฆฌ๋ฅผ ์ž์„ธํžˆ ํ•™์Šตํ•  ์ˆ˜ ์žˆ๋Š” ๊ฐ•์˜์ž…๋‹ˆ๋‹ค.

Thumbnail

์ค‘๊ธ‰์ž๋ฅผ ์œ„ํ•ด ์ค€๋น„ํ•œ
[๋ฐ์ดํ„ฐ ๋ถ„์„] ๊ฐ•์˜์ž…๋‹ˆ๋‹ค.

์ด๋Ÿฐ ๊ฑธ ๋ฐฐ์šธ ์ˆ˜ ์žˆ์–ด์š”

  • ์‹ฌ์ธต ๊ฐ•ํ™”ํ•™์Šต(Deep Reinforcement Learning)์˜ ๊ธฐ์ดˆ์™€ ์›๋ฆฌ

  • ๊ธฐ๋ณธ DQN๊ณผ Double Q-Learning, Duel Q-Learning, Prioritized Experience Replay(PER) ์ตœ์‹  ๋…ผ๋ฌธ์—์„œ ์ œ์•ˆ๋œ ์‹ฌํ™” DQN ๊ธฐ๋ฒ•

  • Vanila Policy Gradient(REINFORCE) ๊ธฐ๋ฒ•๊ณผ Actor-Critic Method ์‹ฌํ™” Policy Gradient ๊ธฐ๋ฒ•(Proximal Policy Optimization[PPO])

์‹ฌ์ธต ๊ฐ•ํ™”ํ•™์Šต ๊ธฐ์ดˆ ๊ฐœ๋…๋ถ€ํ„ฐ ์ตœ์‹  ๊ธฐ๋ฒ•๊นŒ์ง€!

์‹ฌ์ธต ๊ฐ•ํ™”ํ•™์Šต ๊ธฐ๋ณธ ์›๋ฆฌ + Double DQN, Duel DQL, PER ์ตœ์‹  ๋ชจ๋ธ

์‹ฌ์ธต ๊ฐ•ํ™”ํ•™์Šต ๊ธฐ์ดˆ ๊ฐœ๋…๋ถ€ํ„ฐ ์ตœ์‹  ๋…ผ๋ฌธ์—์„œ ์ œ์•ˆ๋œ ๋‹ค์–‘ํ•œ ๊ธฐ๋ฒ•๋“ค์„ ํ•จ๊ป˜ ๋‹ค๋ฃน๋‹ˆ๋‹ค. ์ž์„ธํ•œ ์„ค๋ช…๊ณผ TensorFlow ์ฝ”๋“œ ์‹ค์Šต์„ ํ†ตํ•ด ํŠผํŠผํ•˜๊ฒŒ ์ตํ˜€๋ณด์„ธ์š” ๐Ÿ˜€

์ž์„ธํ•œ ์„ค๋ช…, ๋‹จ๊ณ„๋ณ„ ํ•™์Šต +
์ตœ์‹  ๋ชจ๋ธ ๊ตฌํ˜„๊นŒ์ง€ ํ•œ๋ฒˆ์—! 

Step 1 โœ๏ธ 
์ž์„ธํ•œ ์„ค๋ช…๊ณผ ๋‹จ๊ณ„๋ณ„ ํ•™์Šต์„ ํ†ตํ•ด ์‹ฌ์ธต ๊ฐ•ํ™”ํ•™์Šต(Deep Reinforcement Learning)์˜ ๊ฐœ๋…๊ณผ ์›๋ฆฌ๋ฅผ ํƒ„ํƒ„ํ•˜๊ฒŒ ํ•™์Šตํ•ฉ๋‹ˆ๋‹ค.

Step 2 ๐Ÿ‘จ๐Ÿปโ€๐Ÿ’ป 
Double DQN, Duel DQN, PER์™€ Actor-Critic๊นŒ์ง€ ์ตœ์‹  ์‹ฌ์ธต ๊ฐ•ํ™”ํ•™์Šต ๋ชจ๋ธ์„ TensorFlow(ํ…์„œํ”Œ๋กœ) 2.0์„ ์ด์šฉํ•ด์„œ ๊ตฌํ˜„ํ•ด ๋ด…์‹œ๋‹ค. 

์„ ์ˆ˜ ๊ฐ•์˜ โœ…

๐Ÿ‘‹ ๋ณธ ๊ฐ•์˜๋Š” TensorFlow 2.0๊ณผ ๋”ฅ๋Ÿฌ๋‹ ๊ธฐ์ดˆ์— ๋Œ€ํ•œ ์„ ์ˆ˜ ์ง€์‹์ด ํ•„์š”ํ•œ ๊ฐ•์˜์ž…๋‹ˆ๋‹ค. ๋ฐ˜๋“œ์‹œ ์•„๋ž˜ ๊ฐ•์˜๋ฅผ ๋จผ์ € ์ˆ˜๊ฐ•ํ•˜์‹œ๊ฑฐ๋‚˜ ๊ทธ์— ์ค€ํ•˜๋Š” ์ง€์‹์„ ๊ฐ–์ถ˜ ๋’ค ๋ณธ ๊ฐ•์˜๋ฅผ ์ˆ˜๊ฐ•ํ•˜์„ธ์š”.

๐Ÿ‘‰ ๋”ฅ๋Ÿฌ๋‹ ํ•ต์‹ฌ ์ด๋ก ๊ณผ ์ตœ์‹  TensorFlow 2.0์„ ์ด์šฉํ•œ ๋”ฅ๋Ÿฌ๋‹ ์ฝ”๋“œ ๊ตฌํ˜„์„ ํ•œ๋ฒˆ์— ๋ฐฐ์šธ ์ˆ˜ ์žˆ๋Š” ๊ฐ•์˜์ž…๋‹ˆ๋‹ค.

์ด๋Ÿฐ ๋ถ„๋“ค๊ป˜
์ถ”์ฒœ๋“œ๋ ค์š”!

ํ•™์Šต ๋Œ€์ƒ์€
๋ˆ„๊ตฌ์ผ๊นŒ์š”?

  • ์‹ฌ์ธต ๊ฐ•ํ™”ํ•™์Šต(Deep Reinforcement Learning)์˜ ๊ฐœ๋…๊ณผ ์›๋ฆฌ๋ฅผ ํƒ„ํƒ„ํžˆ ํ•™์Šตํ•˜๊ณ  ์‹ถ์€ ๋ถ„

  • ์‹ฌ์ธต ๊ฐ•ํ™”ํ•™์Šต(Deep Reinforcement Learning)์˜ ๋‹ค์–‘ํ•œ ์•Œ๊ณ ๋ฆฌ์ฆ˜์„ ์‹ค์ œ TensorFlow ์ฝ”๋“œ๋กœ ๊ตฌํ˜„ํ•ด๋ณด๊ณ  ์‹ถ์€ ๋ถ„

  • ์‹ฌ์ธต ๊ฐ•ํ™”ํ•™์Šต(Deep Reinforcement Learning)์˜ ๋‹ค์–‘ํ•œ ์ตœ์‹  ๋…ผ๋ฌธ์„ ์‚ดํŽด๋ณด๊ณ  ์‹ถ์€ ๋ถ„

์„ ์ˆ˜ ์ง€์‹,
ํ•„์š”ํ• ๊นŒ์š”?

  • Python ์‚ฌ์šฉ๊ฒฝํ—˜

  • ์„ ์ˆ˜๊ฐ•์˜ [TensorFlow 2.0์œผ๋กœ ๋ฐฐ์šฐ๋Š” ๋”ฅ๋Ÿฌ๋‹ ์ž…๋ฌธ] ์ˆ˜๊ฐ•๊ฒฝํ—˜

์•ˆ๋…•ํ•˜์„ธ์š”
AISchool์ž…๋‹ˆ๋‹ค.

7,869

๋ช…

์ˆ˜๊ฐ•์ƒ

520

๊ฐœ

์ˆ˜๊ฐ•ํ‰

338

๊ฐœ

๋‹ต๋ณ€

4.6

์ 

๊ฐ•์˜ ํ‰์ 

26

๊ฐœ

๊ฐ•์˜

๋”๋ณด๊ธฐ

์ปค๋ฆฌํ˜๋Ÿผ

์ „์ฒด

33๊ฐœ โˆ™ (5์‹œ๊ฐ„ 21๋ถ„)

ํ•ด๋‹น ๊ฐ•์˜์—์„œ ์ œ๊ณต:

์ˆ˜์—…์ž๋ฃŒ
๊ฐ•์˜ ๊ฒŒ์‹œ์ผ: 
๋งˆ์ง€๋ง‰ ์—…๋ฐ์ดํŠธ์ผ: 

์ˆ˜๊ฐ•ํ‰

์•„์ง ์ถฉ๋ถ„ํ•œ ํ‰๊ฐ€๋ฅผ ๋ฐ›์ง€ ๋ชปํ•œ ๊ฐ•์˜์ž…๋‹ˆ๋‹ค.
๋ชจ๋‘์—๊ฒŒ ๋„์›€์ด ๋˜๋Š” ์ˆ˜๊ฐ•ํ‰์˜ ์ฃผ์ธ๊ณต์ด ๋˜์–ด์ฃผ์„ธ์š”!