モンテカルロ法は、状態遷移が分からない、つまりある行動の結果としてどのような報酬が得られるか分からない場合に用いられる方法です。
この方法では、とにかくエージェントに何らかの行動を最後までやり抜かせることで、何らかの報酬を獲得し、一つ一つの行動をエピソードとして記録していきます。そして各エピソードの結果得られた報酬をサンプリングしていき、その報酬の平均を計算することにより期待値を求め、それを報酬の値として用いることで学習を進めます。これにより各行動の価値を算出する最適行動価値関数へと行動価値関数を近似させ、方策を評価・改善させていくことで、最適な方策へと近づけていきます。動的計画法において状態価値を重視したのとは違い、モンテカルロ法では行動価値を重視する傾向にあります。これは完全なモデルを前提としない以上、状態価値の算出が困難であるためです。
モンテカルロ法では、最適方策の収束の保証を得るために、エピソードにおける開始点探査と、方策評価を無限個のエピソード群に対して行えるという二点が基本的には仮定されています。開始点探査とは、探査維持を保証するための仮定で、これにより全ての状態行動対が無限回訪問されているとする仮定です。これらの仮定を置けば、もちろん十分な探査が保証されるわけですが、無限回の訪問など、少し非現実的と言わざるを得ないものとなっています。
この課題の解決策として、方策オン型のモンテカルロ法と方策オフ型のモンテカルロ方という代表的な二つの方法があります。
古典的な方策オン型モンテカルロ法では、一定の確率εでエージェントはランダムな行動を取り、それ以外は決められた方策πに従うというルールで行動を制御することで学習が進められます。このランダムに行われた行動によって、行動価値関数、及び方策の更新が行われていくという方法です。この方法では、方策を制御に用いると同時に、方策の価値推定も行うという方法が取られています。
もう一方の方策オフ型モンテカルロ法では、挙動生成を主な機能とする挙動方策と評価・改善される推定方策という二つの方策を用いることで、制御のための方策と価値推定のための方策を分離することで学習が進められていきます。この分離により挙動方策により全ての可能な行動をサンプリングしつつ、決定論的な方策を推定方策として用いることが可能となっている点が特徴的です。
参考文献:Richard S. Sutton , Andrew G.Barto , 三上貞芳 , 皆川雅章(2000), 強化学習 森北出版