Playing Atari with Deep Reinforcement Learning - todo314 @ ウィキ - atwiki（アットウィキ）

todo314 @ ウィキ

todo314 @ ウィキ

Playing Atari with Deep Reinforcement Learning

Playing Atari with Deep Reinforcement Learning

ポイント
ゲーム+深層学習+強化学習
結果がやばい

深層学習+強化学習
- Q(s,a)を畳み込みニューラルネットワークで表現
Atari 2600の7つのゲームで評価
背景削除とかいらないぜ！！
3/7で人間に勝利

Arcade Learning Environment
っていう環境があるらしい（知らなかった）

強化学習タスク
部分観測マルコフ決定過程
- 観測した画面だけでは現在の状況は分からん
- シューティングとか、弾がどっちに飛んでるか分からん
ゲームのはじめからの画面と自分がとってきた行動を状態とする
↑のおかげでスタンダードなQ-learningが使える
そのままはちょっと辛いので関数近似
Back propagation
Experience relpay
- 過去の遷移を保存してなんかやる
- パラメータの振動・発散を防げる

Deep Q-Network
- 入力: ラスト4フレーム（グレースケール
- 出力: 各アクションの行動価値

結果
- 長期的な戦略が必要なゲームは人間に勝てないけど、それ意外は勝てるっぽい

2014-01-24 14:18:29 (Fri)

タグ：

NIPS

「Playing Atari with Deep Reinforcement Learning」をウィキ内検索

最終更新：2014年01月24日 14:18