NOTE
本稿は，以下のサーベイ論文に基づいている．

B. B. Moser, F. Raue, S. Frolov, S. Palacio, J. Hees and A. Dengel, “Hitchhiker’s Guide to Super-Resolution: Introduction and Recent Advances,” in IEEE Transactions on Pattern Analysis and Machine Intelligence, vol. 45, no. 8, pp. 9862-9882, Aug. 2023, doi: 10.1109/TPAMI.2023.3243794.

要旨#

超解像（SR）は，低解像度画像を高解像度画像へと変換する技術であり，自然画像，衛星画像，医療画像など幅広い応用を持つ．ディープラーニングの進展により大きな成果が得られているものの，低解像度と高解像度の対応関係が不確定であるため，本質的に困難な課題である．本稿では，ディープラーニング手法に特化し，近年注目を集める動向を整理する．具体的には，不確実性を考慮した損失関数，画質評価法の進展，新しいデータセット，拡散モデル，正規化技術，ニューラルアーキテクチャ探索などを対象とする．さらに，定義・評価指標，データセット，損失関数，アップサンプリング手法，アテンション機構，学習戦略，モデル構造，教師なしSR，および今後の研究課題について体系的に解説する．

問題定義#

超解像（SR; Super-Resolution）手法は，低解像度（LR; Low-Resolution）画像から高解像度（HR; High-Resolution）画像を生成する．主なアプローチとして，Single Image Super-Resolution (SISR)と多画像超解像Multi-Image Super-Resolution (MISR)の2種類がある．

SISR#

SISRの目的は，与えられた低解像度画像 $\bf{x}\in\R^{\bar{w}\times\bar{h}\times c}$ を高解像度画像 $y\in\R^{w\times h\times c}, (\bar{w}\le w, \bar{h}\le h)$ に拡大することである．また， $N_{\bf{x}}=whc$ を画像 $\bf{x}\in\R^{w\times h\times c}$ の画素数とし， $\Omega_{\bf{x}}$ を $\bf{x}$ における全ての有効な位置の集合とする．

\Omega_{\bf{x}}= \{ (i,j,k)\in\N_1^3 | i\le h,j\le w,k\le c \}

$s\in\N_1$ をスケーリング係数とすると， $h=s\bar{h},w=s\bar{w}$ である．さらに， $\mathcal{D}:\R^{w\times h\times c}\to \R^{\bar{w}\times \bar{h}\times c}$ を， $LR(\bf{x})$ と $HR(\bf{y})$ の2つのエンティティ間の固有の関係を記述する劣化マッピングとする．

\bf{x}=\mathcal{D}(\bf{y}; \delta)

ここで， $\delta$ は，例えば，スケーリング係数 $s$ やぼかしタイプのような他の要素を含む $\mathcal{D}$ のパラメータである．

実際には，劣化マッピングはしばしば未知ため，例えばバイキュービックダウンサンプリングでモデル化される．SISRの難しい課題は， $\mathcal{D}$ の逆マッピングを実行することである．残念ながら，1つのLR画像が複数の非同一のHR画像につながる可能性があるため，この問題は不十分である．目標はSRモデル $\mathcal{M}$ を見つけることである． $\mathcal{M}:\R^{\bar{w}\times\bar{h}\times c}\to\R^{w\times h\times c}, s.t.:$

\hat{\bf{y}}=\mathcal{M}(\bf{x}; \theta)

ここで， $\hat{\bf{y}}$ はLR画像 $\bf{x}$ の予測されたHR近似であり， $\theta$ はモデル $\mathcal{M}$ のパラメータである．

ディープラーニング（DL; Deep Learning）の場合，これは，与えられた損失関数 $\mathcal{L}$ の下での推定 $\hat{\bf{y}}$ とグランドトゥルースHR画像 $\bf{y}$ の差を最小化する目的最適化に変換される．

\hat{\theta}=\argmin_\theta \mathcal{L}(\hat{\bf{y}},\bf{y})

TIP
Multi-Image Super-Resolution (MISR)について追記予定

目的関数#

回帰ベースの目的関数#

回帰ベースの目的関数は，入力と出力の関係を明示的にモデル化することを目指す．SRモデルのパラメータはデータから直接推定され，通常は $L1$ または $L2$ 損失を最小化することで学習される．これらの損失関数は適用が容易だが，生成される画像はぼやけやすい．この欠点を軽減する方法の一つとして，損失関数自体に不確実性を組み込む手法がある．

ピクセル損失#

ピクセル損失は画素ごとの差を測定するもので，文献でよく知られているものに $L1$ 損失（平均絶対誤差：MAE）がある．

\mathcal{L}_\text{L1}(\bf{y},\hat{\bf{y}})=\frac{1}{N_y}\sum_{p\in\Omega_{\bf{y}}}|\bf{y}_p-\hat{\bf{y}}_p|

$L1$ 損失は両画像の各画素の絶対差を取り，その平均値を返す．もう一つよく知られたピクセル損失は $L2$ 損失（平均二乗誤差：MSE）で，差を二乗するため，大きな差をより重く評価する．

\mathcal{L}_\text{L2}(\bf{y},\hat{\bf{y}})=\frac{1}{N_y}\sum_{p\in\Omega_{\bf{y}}}|\bf{y}_p-\hat{\bf{y}}_p|^2

文献では $L2$ より $L1$ 損失の方が一般的である．理由は， $L2$ は極端な値に敏感で，低い値では平滑化されすぎ，高い値では変動が大きくなるためである．用途や条件に応じた変種もあり，その一つにCharbonnier損失がある．

\mathcal{L}_\text{Charbonnier}(\bf{y},\hat{\bf{y}})=\frac{1}{N_y}\sum_{p\in\Omega_{\bf{y}}} \sqrt{|\bf{y}_p-\hat{\bf{y}}_p|^2+\epsilon^2}

Charbonnier損失では， $0<\epsilon \ll1$ の小さな定数を用いて内部の値がゼロにならないようにしている． $L1$ 損失は $\epsilon=0$ の場合の特別なケースと見なせる．ピクセル損失関数はピクセル差に基づくため高い PSNR を得やすいが，主観的な画質との相関は低く，生成画像はぼやけがちである．この問題を改善する一つの方法は不確実性を導入することである．

不確実性に基づいた損失#

深層学習において不確実性をモデル化することは，性能やロバスト性の向上につながる．そのため，NingらはSISRのために適応的重み付き損失を提案した．この損失関数は，平坦領域よりも視覚的に重要なテクスチャやエッジの画素に重点を置くため，各画素を不均等に扱う．また，変分オートエンコーダ（VAE）の考え方を取り入れ，まず不確実性を推定する．具体的には，SRモデル $\mathcal{M}$ （パラメータ $\theta$ を持つ）が，平均画像 $\mu_\theta(x)$ と分散画像 $\sigma_\theta(x)$ （不確実性）を学習し，それに基づいて近似画像 $\hat{\bf{y}}$ を生成する．

\hat{\bf{y}}=\mathcal{M}(\bf{x}; \theta) =\underbrace{\mu_\theta(\bf{x})}_{=\hat{\bf{y}}_\mu} +\epsilon\cdot \underbrace{\sigma_\theta(\bf{x})}_{=\hat{\bf{y}}_\sigma}

ここで， $\sigma\sim\mathcal{N}(\bf{0},\bf{I})$ ．多くの深層学習ベースのSISR手法は平均画像 $\hat{\bf{y}}_\mu$ のみを推定するが，Ningらは不確実性 $\hat{\bf{y}}_\sigma$ も同時に推定する手法を提案した．彼らは，SISRでは平坦な領域が多いため不確実性が疎であるという観察に基づき，疎な不確実性を推定するためのESU（Estimating Sparse Uncertainty）損失を提示した．

\mathcal{L}_\text{ESU}(\bf{y},\hat{\bf{y}}) =\exp(-\ln \hat{\bf{y}}_\sigma)\cdot \|\bf{y}-\hat{\bf{y}}\|_1 +2\ln \hat{\bf{y}}_\sigma

Ningらは， $\mathcal{L}_\text{ESU}$ がSISRの性能を低下させることを確認し，SISRには適さないと判断した．その上で，不確実性推定を有効に活かすには，不確実性の高い画素を優先する必要があると結論づけた．結果として，彼らは「不確実性駆動損失（UDL: Uncertainty-Driven Loss）」を提案し， $\exp(-\ln \hat{\bf{y}}_\sigma)$ の代わりに単調増加関数を用いた．

\mathcal{L}_\text{UDL}(\bf{y},\hat{\bf{y}}) =[\ln \hat{\bf{y}}_\sigma-\min(\ln \hat{\bf{y}}_\sigma)]\cdot \|\bf{y}-\hat{\bf{y}}\|_1

ここで， $[\ln \hat{\bf{y}}_\sigma-\min(\ln \hat{\bf{y}}_\sigma)]$ は，非負の線形スケーリング関数である．

TIP
GANs(Generative Adversarial Networks)について追記予定

参考文献#

B. B. Moser, F. Raue, S. Frolov, S. Palacio, J. Hees and A. Dengel, “Hitchhiker’s Guide to Super-Resolution: Introduction and Recent Advances,” in IEEE Transactions on Pattern Analysis and Machine Intelligence, vol. 45, no. 8, pp. 9862-9882, Aug. 2023, doi: 10.1109/TPAMI.2023.3243794.