921 words
5 minutes
ニューラルネットワーク
2025-06-22

ニューラルネットワークの定式化と理論的背景#

ニューラルネットワークとは,パラメトリックな関数族によって定義される関数近似モデルであり,入力空間 Rn\mathbb{R}^n 上の写像を,アフィン変換と非線形活性化関数の合成によって表現する.これは,次のような形で定義される.

fθ(x)=ϕ(L)(W(L)ϕ(L1)(ϕ(1)(W(1)x+b(1)))+b(L))f_\theta(x) = \phi^{(L)}\left( W^{(L)} \phi^{(L-1)} \left( \cdots \phi^{(1)}\left( W^{(1)}x + b^{(1)} \right) \cdots \right) + b^{(L)} \right)

ここで:

  • xRd0x \in \mathbb{R}^{d_0}:入力ベクトル
  • W(l)Rdl×dl1,b(l)RdlW^{(l)} \in \mathbb{R}^{d_l \times d_{l-1}}, b^{(l)} \in \mathbb{R}^{d_l}:第ll層の重み行列およびバイアスベクトル
  • ϕ(l):RdlRdl\phi^{(l)}: \mathbb{R}^{d_l} \to \mathbb{R}^{d_l}:第ll層の非線形活性化関数(ReLU, Tanh, GELU など)

全体のパラメータ集合は以下で与えられる.

θ={W(l),b(l)}l=1L\theta = \{ W^{(l)}, b^{(l)} \}_{l=1}^{L}

学習:経験誤差最小化#

学習は,教師データ D={(xi,yi)}i=1N\mathcal{D} = \{(x_i, y_i)\}_{i=1}^N に対し,損失関数 L(fθ(xi),yi)\mathcal{L}(f_\theta(x_i), y_i) の総和(または平均)を最小化することで行う.すなわち,

minθJ(θ)=1Ni=1NL(fθ(xi),yi)\min_{\theta} \mathcal{J}(\theta) = \frac{1}{N} \sum_{i=1}^{N} \mathcal{L}(f_\theta(x_i), y_i)

一般にはこの最適化問題は非凸であり,解析的に解くことは困難であるため,勾配ベースの最適化アルゴリズムが用いられる.

最適化#

損失関数のパラメータに対する勾配は,誤差逆伝播法(Backpropagation)により計算される.この手法は,連鎖律(chain rule)に基づく逆モード自動微分(reverse-mode autodiff)に相当し,効率的な勾配計算を実現する.

典型的なパラメータ更新則は以下のように表される(学習率η>0\eta > 0).

θθηθJ(θ)\theta \leftarrow \theta - \eta \nabla_\theta \mathcal{J}(\theta)

最適化アルゴリズムとしては,確率的勾配降下法(SGD)およびその変種(Momentum, RMSProp, Adam など)が広く用いられる.

理論的性質#

普遍近似定理(Universal Approximation Theorem; UAP)#

ある活性化関数(例:シグモイド,ReLU)が適切な条件を満たす場合,1つの隠れ層を持つネットワークでも,任意の連続関数 fC(K;Rn)f\in C(K; \R^n) を任意の精度で近似できることが知られている.

ε>0,  θ s.t. supxXf(x)fθ(x)<ε\forall \varepsilon > 0,\ \exists\ \theta\ \text{s.t.}\ \sup_{x \in \mathcal{X}} \left|f(x) - f_\theta(x)\right| < \varepsilon

この性質により,ニューラルネットワークは関数空間上の汎用的近似器として理論的に保証されている.詳しくは,[wiki]を参照されたい.

拡張と応用#

ニューラルネットワークは以下のように構造や目的に応じて様々に拡張される.

  • CNN
    • 特徴抽出の基本単位は畳み込み演算:(Wx)[i]=jW[j]x[ij](W * x)[i] = \sum_j W[j]x[i - j]
    • 局所受容野により局所的特徴を捉える
    • 重み共有でパラメータ効率が良い
    • 空間的平行移動不変性を実現
    • 多チャネル(多フィルタ)対応により多様な特徴を同時抽出
    • プーリング層で次元削減と位置不変性の強化
    • 用途:画像認識,物体検出,音声処理など
  • RNN / LSTM / GRU
    • 逐次データの時間依存性をモデル化
    • 時系列依存の動的表現
    • 隠れ状態:ht=ϕ(Wxhxt+Uhhht1+b)h_t = \phi(W_{xh}x_t + U_{hh}h_{t-1} + b)
    • 出力計算:yt=Whyht+byy_t=W_{hy}h_t+b_y
    • 勾配消失・爆発問題が課題
    • STMやGRUでゲート機構を導入し長期依存性を改善
    • 逐次処理のため計算並列性は限定的
    • 用途:自然言語処理,音声認識,時系列予測
  • Transformer
    • 自己注意機構(Self-Attention)に基づく並列処理構造:Attention(Q,K,V)=softmax(QKTdk)V\text{Attention}(Q,K,V)=\text{softmax}\left(\frac{QK^T}{\sqrt{d_k}}\right)V
    • クエリ・キー・バリューはすべて入力系列から線形変換により生成
    • 多頭注意(Multi-head Attention) により多様な特徴空間での情報統合を実現
    • 位置エンコーディングで系列情報を補完
    • 並列計算が可能で長距離依存を効率的に扱う
    • 用途:機械翻訳,文章生成,音声・画像処理,マルチモーダル学習
ニューラルネットワーク
https://sql-hkr.github.io/blog/posts/ai/nn/
Author
sql-hkr
Published at
2025-06-22
License
CC BY-NC-SA 4.0