ニューラルネットワーク

ニューラルネットワークの定式化と理論的背景#

ニューラルネットワークとは，パラメトリックな関数族によって定義される関数近似モデルであり，入力空間 $\mathbb{R}^n$ 上の写像を，アフィン変換と非線形活性化関数の合成によって表現する．これは，次のような形で定義される．

f_\theta(x) = \phi^{(L)}\left( W^{(L)} \phi^{(L-1)} \left( \cdots \phi^{(1)}\left( W^{(1)}x + b^{(1)} \right) \cdots \right) + b^{(L)} \right)

ここで：

$x \in \mathbb{R}^{d_0}$ ：入力ベクトル
$W^{(l)} \in \mathbb{R}^{d_l \times d_{l-1}}, b^{(l)} \in \mathbb{R}^{d_l}$ ：第 $l$ 層の重み行列およびバイアスベクトル
$\phi^{(l)}: \mathbb{R}^{d_l} \to \mathbb{R}^{d_l}$ ：第 $l$ 層の非線形活性化関数（ReLU, Tanh, GELU など）

全体のパラメータ集合は以下で与えられる．

\theta = \{ W^{(l)}, b^{(l)} \}_{l=1}^{L}

学習は，教師データ $\mathcal{D} = \{(x_i, y_i)\}_{i=1}^N$ に対し，損失関数 $\mathcal{L}(f_\theta(x_i), y_i)$ の総和（または平均）を最小化することで行う．すなわち，

\min_{\theta} \mathcal{J}(\theta) = \frac{1}{N} \sum_{i=1}^{N} \mathcal{L}(f_\theta(x_i), y_i)

一般にはこの最適化問題は非凸であり，解析的に解くことは困難であるため，勾配ベースの最適化アルゴリズムが用いられる．

損失関数のパラメータに対する勾配は，誤差逆伝播法（Backpropagation）により計算される．この手法は，連鎖律（chain rule）に基づく逆モード自動微分（reverse-mode autodiff）に相当し，効率的な勾配計算を実現する．

典型的なパラメータ更新則は以下のように表される（学習率 $\eta > 0$ ）．

\theta \leftarrow \theta - \eta \nabla_\theta \mathcal{J}(\theta)

最適化アルゴリズムとしては，確率的勾配降下法（SGD）およびその変種（Momentum, RMSProp, Adam など）が広く用いられる．

ある活性化関数（例：シグモイド，ReLU）が適切な条件を満たす場合，1つの隠れ層を持つネットワークでも，任意の連続関数 $f\in C(K; \R^n)$ を任意の精度で近似できることが知られている．

\forall \varepsilon > 0,\ \exists\ \theta\ \text{s.t.}\ \sup_{x \in \mathcal{X}} \left|f(x) - f_\theta(x)\right| < \varepsilon

この性質により，ニューラルネットワークは関数空間上の汎用的近似器として理論的に保証されている．詳しくは，[wiki]を参照されたい．

ニューラルネットワークは以下のように構造や目的に応じて様々に拡張される．