Rainbow DQNのまとめ - ホリケン's diary

Deep Q Networkをベースとした以下の6つの改善手法全てを統合したモデル

(1) Double DQN

DQNの課題
Q-learningでは教師データをmaxQ-valueで更新していた。この方法だと本来は価値の高くないはずの行動を最適だと判断してQ-valueの更新を行ってしまう可能性があり(過大評価)、最適な方策を見つけにくくなる恐れがあった。
Double DQNにおける提案
教師データを作る際に、今まで同じネットワークで評価していたのを別のネットワークの評価値で置き換えることで過大評価の可能性を抑えた。

(2)Prioritized Experience Reply

DQNの課題
時系列に影響されない学習の実現のためにExperience Replyを用いる。保存されたものからランダムに経験が抽出されるため、学習にふさわしくない経験が多く呼び出されたり、重要な経験が呼び出されずに非効率的な学習を行っていた。
Prioritized Experience Replyにおける提案
TD誤差によって経験に優先度をつけて保存することで、重要な経験が呼び出されやすくなるようにし効率的な学習を行う。この考えをベースとしてちょっとした工夫を散りばめる(確率的サンプリング、propotional or rank-based、バイアス、)

(3)Dueling Network