強化学習とは#
強化学習(Reinforcement Learning; RL),最適な意思決定のルールを求めることを目的とする分野であり,一般に「教師あり学習」や「教師なし学習」と並ぶ機械学習の一分野に分類される.
マルコフ決定過程#
マルコフ決定決定過程(Markov decision process; MDP)は,マルコフ連鎖に行動および報酬を組み入れた確率制御過程であり,5つの組
M≜{S,A,ps0,pT,g}で定義される.ここで,有限状態集合S.有限行動集合A,初期状態確率関数ps0,状態遷移確率関数pT,報酬関数gは,
S≜{1,⋯,∣S∣}A≜{a1,⋯,a∣A∣}ps0:S→[0,1]:ps0(s)≜P(S0=s)pT:S×S×A→[0,1]:pT(s′∣s,a)≜P(St+1=s′∣St=s,At=a),∀t∈N0g:S×A→R報酬関数gは有限関数であり,
∣g(s,a)∣≤Rmax,∀(s,a)∈S×A,Rmax∈Rであり,報酬の集合Rは,
R≜{r∈R:r=g(s,a),∃(s,a)∈S×A}である.定義上,∣R∣≤∣S∣∣A∣を満たす.
次に,方策と呼ばれる行動の選択ルールを規定する関数であるが,ここでは現時間ステップの状態sのみに依存して確率的に行動を選択する確率的方策π:A×S→[0,1]
π(a∣s)≜P(A=a∣S=s)を用いることとする.方策πを含めたマルコフ決定過程Mを
M(π)≜{S,A,ps0,pT,g,π}とし,任意の確率的方策πを含む方策集合を
Π≜{π:A×S→[0,1]:a∈A∑π(a∣s)=1,∀s∈S}と定義する.
マルコフ決定過程の時間発展(s0,a0,r0,⋯,st,at,rt)の具体的な手順は,
- 時間ステップt=0と初期化し,st∼ps0を観測
- 行動at∼π(⋅∣st)を選択
- 報酬rt=g(st,at),st+1∼pT(⋅∣st,at)を観測
- t←t+1とし,手順1.に遷移
となる.
逐次的意思決定の典型的問題設定#
方策の最適化問題である逐次的意思決定問題は,一般に以下のような目的関数(期待割引累積報酬)を考える.
f(π)=E[T→∞limt=0∑TγtRt∣M(π)]ここで,γ∈[0,1)は割引率と呼ばれ,長期的な報酬和をどの程度考慮するかを調整するパラメータである.
定常なマルコフ方策は,
πs≜{π,π,⋯}∈ΠS,π∈Πであり,特に,決定的方策πd∈Πd⊆Πの場合を,
πsd≜{π,π,⋯}∈ΠSD,π∈Πと定義する.一方で,一般のマルコフ方策は,
πm≜{π0∈Π,π1∈Π,⋯}∈ΠMとする.現在の状態だけではなくそれ以前の経験にも異存する非マルコフ方策は,
πh≜{π0h,π1h,⋯}∈ΠH≜(Πth)t∈N0と定義する.なお,現在の時間ステップtまでの全ての経験の履歴{s0,a0,r0,⋯,st−1,at−1,rt−1,st}≜ht∈Htに基づく,履歴依存の方策
πth(a∣ht)≜P(A=a∣Ht=ht)の集合を
Πth≜{πth:A×Ht→[0,1]:a∈A∑πth(a∣ht)=1}としている.各方策系列の集合には,
ΠSD⊆ΠS⊆ΠM⊆ΠHの包含関係があり,方策系列を引数とする任意の目的関数fに対して,
π∈ΠSDmaxf(π)≤π∈ΠSmaxf(π)≤π∈ΠMmaxf(π)≤π∈ΠHmaxf(π)の関係にある.
割引累積報酬と目的関数#
割引累積報酬C∈Rは,
Ct≜k=0∑∞γkRt+kと定義され,γ∈[0,1)は割引率と呼ばれるハイパーパランメータである.定義式より,
Ct=Rt+k=1∑∞γkRt+k=Rt+γCt+1のように再帰的な構造をもつ.また,報酬関数は定義より有限∣R∣≤Rmaxであるので,
∣Ct∣≤k=1∑∞γkRmax=1−γRmax,∀t∈N0より有限となる.
逐次的意思決定問題は一般に割引累積報酬に関する何かしらの統計量F[C∣M(π)]を目的関数f:Π→R
f(π)≜F[C∣M(π)]や制約条件に用いて,方策についての最適化問題として定式化する.制約なしの逐次的意思決定問題は最適方策
π⋆≜π∈Πargmaxf(π)の探索問題と解釈できる.