Playing Atari with Deep Reinforcement Learning
-
ポイント
-
ゲーム+深層学習+強化学習
-
結果がやばい
-
深層学習+強化学習
-
Q(s,a)を畳み込みニューラルネットワークで表現
-
Atari 2600の7つのゲームで評価
-
背景削除とかいらないぜ!!
-
3/7で人間に勝利
-
Arcade Learning Environment
-
っていう環境があるらしい(知らなかった)
-
強化学習タスク
-
部分観測マルコフ決定過程
-
観測した画面だけでは現在の状況は分からん
-
シューティングとか、弾がどっちに飛んでるか分からん
-
ゲームのはじめからの画面と自分がとってきた行動を状態とする
-
↑のおかげでスタンダードなQ-learningが使える
-
そのままはちょっと辛いので関数近似
-
Back propagation
-
Experience relpay
-
過去の遷移を保存してなんかやる
-
パラメータの振動・発散を防げる
-
Deep Q-Network
-
入力: ラスト4フレーム(グレースケール
-
出力: 各アクションの行動価値
-
結果
-
長期的な戦略が必要なゲームは人間に勝てないけど、それ意外は勝てるっぽい
NIPS
2014-01-24 14:18:29 (Fri)
最終更新:2014年01月24日 14:18