912 words
5 minutes
強化学習の基礎
2025-08-02

強化学習とは#

強化学習(Reinforcement Learning; RL),最適な意思決定のルールを求めることを目的とする分野であり,一般に「教師あり学習」や「教師なし学習」と並ぶ機械学習の一分野に分類される.

マルコフ決定過程#

マルコフ決定決定過程(Markov decision process; MDP)は,マルコフ連鎖に行動および報酬を組み入れた確率制御過程であり,5つの組

M{S,A,ps0,pT,g}M\triangleq \{\mathcal{S},\mathcal{A},p_{s_0},p_T,g\}

で定義される.ここで,有限状態集合S\mathcal{S}.有限行動集合A\mathcal{A},初期状態確率関数ps0p_{s_0},状態遷移確率関数pTp_T,報酬関数ggは,

S{1,,S}A{a1,,aA}ps0:S[0,1]:ps0(s)P(S0=s)pT:S×S×A[0,1]:pT(ss,a)P(St+1=sSt=s,At=a),tN0g:S×AR\begin{align*} \mathcal{S}\triangleq \{1,\cdots,|\mathcal{S}|\}&\\ \mathcal{A}\triangleq \{a^1,\cdots,a^{|\mathcal{A}|}\}&\\ p_{s_0}:\mathcal{S}\to [0,1]:p_{s_0}(s)\triangleq P(S_0=s)&\\ p_T:\mathcal{S}\times\mathcal{S}\times\mathcal{A}\to[0,1]:&\\ p_T(s'|s,a)\triangleq P(S_{t+1}=s'|S_t=s,A_t=a),\forall t\in \N_0&\\ g:\mathcal{S}\times \mathcal{A}\to \R& \end{align*}

報酬関数ggは有限関数であり,

g(s,a)Rmax,(s,a)S×A,RmaxR|g(s,a)|\leq R_\text{max},\forall (s,a)\in \mathcal{S}\times \mathcal{A}, R_\text{max}\in\R

であり,報酬の集合R\mathcal{R}は,

R{rR:r=g(s,a),(s,a)S×A}\mathcal{R}\triangleq \{r\in\R:r=g(s,a),\exists(s,a)\in\mathcal{S}\times\mathcal{A}\}

である.定義上,RSA|\mathcal{R}|\leq |\mathcal{S}||\mathcal{A}|を満たす.

次に,方策と呼ばれる行動の選択ルールを規定する関数であるが,ここでは現時間ステップの状態ssのみに依存して確率的に行動を選択する確率的方策π:A×S[0,1]\pi:\mathcal{A}\times\mathcal{S}\to[0,1]

π(as)P(A=aS=s)\pi(a|s)\triangleq P(A=a|S=s)

を用いることとする.方策π\piを含めたマルコフ決定過程MM

M(π){S,A,ps0,pT,g,π}M(\pi)\triangleq \{\mathcal{S},\mathcal{A},p_{s_0},p_T,g,\pi\}

とし,任意の確率的方策π\piを含む方策集合を

Π{π:A×S[0,1]:aAπ(as)=1,sS}\Pi\triangleq \left\{ \pi:\mathcal{A}\times\mathcal{S}\to[0,1]: \sum_{a\in\mathcal{A}}\pi(a|s)=1,\forall s\in\mathcal{S} \right\}

と定義する.

マルコフ決定過程の時間発展(s0,a0,r0,,st,at,rt)(s_0,a_0,r_0,\cdots,s_t,a_t,r_t)の具体的な手順は,

  1. 時間ステップt=0t=0と初期化し,stps0s_t\sim p_{s_0}を観測
  2. 行動atπ(st)a_t\sim \pi(\cdot|s_t)を選択
  3. 報酬rt=g(st,at)r_t=g(s_t,a_t)st+1pT(st,at)s_{t+1}\sim p_T(\cdot|s_t,a_t)を観測
  4. tt+1t\leftarrow t+1とし,手順1.に遷移

となる.

逐次的意思決定の典型的問題設定#

方策の最適化問題である逐次的意思決定問題は,一般に以下のような目的関数(期待割引累積報酬)を考える.

f(π)=E[limTt=0TγtRtM(π)]f(\pi)=\mathbb{E} \left[ \lim_{T\to\infty}\sum_{t=0}^T \gamma^t R_t |M(\pi) \right]

ここで,γ[0,1)\gamma\in[0,1)は割引率と呼ばれ,長期的な報酬和をどの程度考慮するかを調整するパラメータである.

方策#

定常なマルコフ方策は,

πs{π,π,}ΠS,πΠ\pi^s\triangleq \{\pi,\pi,\cdots\}\in \Pi^S,\quad \pi\in\Pi

であり,特に,決定的方策πdΠdΠ\pi^d\in\Pi^d\sube\Piの場合を,

πsd{π,π,}ΠSD,πΠ\pi^{sd}\triangleq \{\pi,\pi,\cdots\}\in \Pi^{SD},\quad \pi\in\Pi

と定義する.一方で,一般のマルコフ方策は,

πm{π0Π,π1Π,}ΠM\pi^m\triangleq \{\pi_0\in\Pi,\pi_1\in\Pi,\cdots\}\in\Pi^M

とする.現在の状態だけではなくそれ以前の経験にも異存する非マルコフ方策は,

πh{π0h,π1h,}ΠH(Πth)tN0\pi^h\triangleq \{\pi_0^h,\pi_1^h,\cdots\}\in\Pi^H\triangleq (\Pi_t^h)_{t\in\N_0}

と定義する.なお,現在の時間ステップttまでの全ての経験の履歴{s0,a0,r0,,st1,at1,rt1,st}htHt\{s_0,a_0,r_0,\cdots,s_{t-1},a_{t-1},r_{t-1},s_t\}\triangleq h_t\in \mathcal{H}_tに基づく,履歴依存の方策

πth(aht)P(A=aHt=ht)\pi_t^h(a|h_t)\triangleq P(A=a|H_t=h_t)

の集合を

Πth{πth:A×Ht[0,1]:aAπth(aht)=1}\Pi_t^h\triangleq \left\{ \pi_t^h:\mathcal{A}\times\mathcal{H}_t\to[0,1]:\sum_{a\in\mathcal{A}}\pi_t^h(a|h_t)=1 \right\}

としている.各方策系列の集合には,

ΠSDΠSΠMΠH\Pi^{SD}\sube \Pi^S\sube \Pi^M\sube \Pi^H

の包含関係があり,方策系列を引数とする任意の目的関数ffに対して,

maxπΠSDf(π)maxπΠSf(π)maxπΠMf(π)maxπΠHf(π)\max_{\pi\in\Pi^{SD}}f(\pi)\le \max_{\pi\in\Pi^{S}}f(\pi)\le \max_{\pi\in\Pi^{M}}f(\pi)\le \max_{\pi\in\Pi^{H}}f(\pi)

の関係にある.

割引累積報酬と目的関数#

割引累積報酬CRC\in\Rは,

Ctk=0γkRt+kC_t\triangleq \sum_{k=0}^\infty\gamma^kR_{t+k}

と定義され,γ[0,1)\gamma\in[0,1)は割引率と呼ばれるハイパーパランメータである.定義式より,

Ct=Rt+k=1γkRt+k=Rt+γCt+1C_t=R_t+ \sum_{k=1}^\infty\gamma^kR_{t+k} =R_t+\gamma C_{t+1}

のように再帰的な構造をもつ.また,報酬関数は定義より有限RRmax|R|\le R_\text{max}であるので,

Ctk=1γkRmax=Rmax1γ,tN0|C_t|\le \sum_{k=1}^\infty\gamma^kR_\text{max} =\frac{R_\text{max}}{1-\gamma},\quad \forall t\in\N_0

より有限となる.

逐次的意思決定問題は一般に割引累積報酬に関する何かしらの統計量F[CM(π)]\mathcal{F}[C|M(\pi)]を目的関数f:ΠRf:\Pi\to\R

f(π)F[CM(π)]f(\pi)\triangleq \mathcal{F}[C|M(\pi)]

や制約条件に用いて,方策についての最適化問題として定式化する.制約なしの逐次的意思決定問題は最適方策

πarg maxπΠf(π)\pi^\star\triangleq \argmax_{\pi\in\Pi}f(\pi)

の探索問題と解釈できる.

参考文献#

  • [1] 森村哲郎.強化学習.講談社.2019.
強化学習の基礎
https://sql-hkr.github.io/blog/posts/ai/rl-basics/
Author
sql-hkr
Published at
2025-08-02
License
CC BY-NC-SA 4.0