線形回帰の正則化と Bayes モデリング

機械学習の文脈でよく用いられる線形回帰モデルとその正則化について、Bayes の定理を基礎とする統計モデリングによって導出していきます。

    Loading...
Warn

表現は正確でない場合があります。

## 道具立て

### Bayes の定理

確率分布 PP で表される統計モデルの未知パラメータを θΘ\bm{\theta} \in \ThetaPP からのデータを XX とする。これらについて、

Bayes の定理

P(θX)=P(Xθ)P(θ)P(X)P(\bm{\theta}|X) = \frac{P(X|\bm{\theta})P(\bm{\theta})}{P(X)}

が成り立つ。ここで、

  • P(θ)P(\bm{\theta}):事前分布
  • P(θX)P(\bm{\theta}|X):事後分布
  • P(Xθ)P(X|\bm{\theta}):尤度
  • P(X)P(X):周辺尤度

という。

### モデルパラメータ推定法

#### 最尤 (MLE) 推定

データ XX に対して、パラメータが与えられたときデータ XX が得られる確率 (尤度) を最大化する方法。

MLE 推定量

θ^MLE=arg maxθP(Xθ)\hat{\bm{\theta}}_\mathrm{MLE} = \argmax_{\bm{\theta}} P(X|\bm{\theta})

#### 最大事後確率 (MAP) 推定

データ XX を得た後の、パラメータの分布 (事後分布) を最大化する方法。

MAP 推定量

θ^MAP=arg maxθP(Xθ)P(θ)\hat{\bm{\theta}}_\mathrm{MAP} = \argmax_{\bm{\theta}} P(X|\bm{\theta})P(\bm{\theta})

ここで P(X)P(X) は規格化定数と見做せる。この方法では、事前知識としてパラメータの分布 P(θ)P(\bm{\theta}) を埋め込む事ができる。

## 線形重回帰モデルと Bayes モデリング

Gauss-Markov 型の線形回帰モデル (サンプルサイズ NN):

y=Xβ+ε,εN(0,σ2IN)\bm{y} = X\bm{\beta} + \bm{\varepsilon}, \quad \bm{\varepsilon} \sim N(\bm{0}, \sigma^2\bm{I}_N)

を考え、モデルパラメータ (回帰係数) の推定量 β^\hat{\bm{\beta}} を求める。

### MLE 推定

モデルの対数尤度は

lnP(Xβ)=12σ2yXβ2N2ln(2πσ2)\ln P(X|\bm{\beta}) = -\frac{1}{2\sigma^2} || \bm{y} - X\bm{\beta} ||^2 - \frac{N}{2} \ln(2\pi \sigma^2)

であるから、MLE 推定量 β^MLE\hat{\bm{\beta}}_\mathrm{MLE}

Important

β^MLE=arg minβyXβ2\hat{\bm{\beta}}_\mathrm{MLE} = \argmin_{\bm{\beta}} || \bm{y} - X\bm{\beta} ||^2

これは最小二乗 (OLS) 推定量に等しい。

あるいは、一様分布を事前分布 (P(β)1P(\bm{\beta}) \propto \bm{1}) とする場合の MAP 推定量 β^MAP\hat{\bm{\beta}}_\mathrm{MAP} とも解釈できる。

### MAP 推定 (正規分布を仮定)

回帰係数の事前分布として、平均ゼロ、分散 τ2\tau^2 の i.i.d な正規分布:

βN(0,τ2IN)\bm{\beta} \sim N(\bm{0}, \tau^2 \bm{I}_N)

を課す。規格化定数を除く確率密度は

P(β)exp(β22τ2)P(\bm{\beta}) \propto \exp\left(-\frac{|| \bm{\beta} ||^2}{2\tau^2}\right)

である。Bayes の定理から、対数事後分布は

lnP(Xβ)lnP(βX)+lnP(β)=12σ2yXβ2N2ln(2πσ2)β22τ2\begin{aligned} & \ln P(X|\bm{\beta}) \\ & \propto \ln P(\bm{\beta}|X) + \ln P(\bm{\beta}) \\ & = -\frac{1}{2\sigma^2} || \bm{y} - X\bm{\beta} ||^2 - \frac{N}{2} \ln(2\pi \sigma^2) -\frac{|| \bm{\beta} ||^2}{2\tau^2} \end{aligned}

の形をとることがわかる。よって、MAP 推定量 β^MAP\hat{\bm{\beta}}_\mathrm{MAP}

Important

β^MAP=arg minβ(yXβ2+λβ2),λ:=σ2τ2\hat{\bm{\beta}}_\mathrm{MAP} = \argmin_{\bm{\beta}} \left( || \bm{y} - X\bm{\beta} ||^2 + \lambda || \bm{\beta} ||^2 \right), \quad \lambda := \frac{\sigma^2}{\tau^2}

これは Ridge 回帰 (L2L_2-正則化) に等しい。

### MAP 推定 (Laplace 分布を仮定)

以下の確率密度関数が与える分布を Laplace 分布という:

f(x;μ,b)=12bexp(xμb)f(x; \mu, b) = \frac{1}{2b} \exp\left(-\frac{|x - \mu|}{b}\right)

β\bm{\beta} がパラメータ bb の i.i.d な Laplace 分布に従うとすると、

P(β)exp(β1b)P(\bm{\beta}) \propto \exp\left( -\frac{|| \bm{\beta} ||_1}{b} \right)

よって、対数事後分布は

lnP(Xβ)lnP(βX)+lnP(β)=12σ2yXβ2N2ln(2πσ2)β1b\begin{aligned} & \ln P(X|\bm{\beta}) \\ & \propto \ln P(\bm{\beta}|X) + \ln P(\bm{\beta}) \\ & = -\frac{1}{2\sigma^2} || \bm{y} - X\bm{\beta} ||^2 - \frac{N}{2} \ln(2\pi \sigma^2) -\frac{|| \bm{\beta} ||_1}{b} \end{aligned}

の形をとることがわかる。よって、MAP 推定量 β^MAP\hat{\bm{\beta}}_\mathrm{MAP}

Important

β^MAP=arg minβ(yXβ2+λβ1),λ:=2σ2b\hat{\bm{\beta}}_\mathrm{MAP} = \argmin_{\bm{\beta}} \left( || \bm{y} - X\bm{\beta} ||^2 + \lambda || \bm{\beta} ||_1 \right), \quad \lambda := \frac{2\sigma^2}{b}

これは LASSO 回帰 (L1L_1-正則化) に等しい。

## Group LASSO

β\bm{\beta} に関する事前知識として、説明変数のグループ gGg \in G ごとの単位で回帰係数 βg\bm{\beta}_g を定めたいとする。すなわち、

P(β)exp(bgGβg)P(\bm{\beta}) \propto \exp \left( -b \sum_{g \in G} || \bm{\beta}_g || \right)

という事前分布を課すと、対数事後分布は

lnP(Xβ)lnP(βX)+lnP(β)=12σ2yXβ2N2ln(2πσ2)bgGβg\begin{aligned} & \ln P(X|\bm{\beta}) \\ & \propto \ln P(\bm{\beta}|X) + \ln P(\bm{\beta}) \\ & = -\frac{1}{2\sigma^2} || \bm{y} - X\bm{\beta} ||^2 - \frac{N}{2} \ln(2\pi \sigma^2) -b \sum_{g \in G} || \bm{\beta}_g || \end{aligned}

よって、

Important

β^MAP=arg minβ(yXβ2+λgGβg),λ:=2σ2b\hat{\bm{\beta}}_\mathrm{MAP} = \argmin_{\bm{\beta}} \left( || \bm{y} - X\bm{\beta} ||^2 + \lambda \sum_{g \in G} || \bm{\beta}_g || \right), \quad \lambda := \frac{2\sigma^2}{b}

これを Group LASSO という。

## まとめ

線形回帰における正則化は、Bayes モデリングの文脈において事前知識を組み込んだ尤度の最大化と見なす事ができます:

正則化事前分布事前分布の関数形
なし一様分布P(β)1P(\bm{\beta}) \propto \bm{1}
L2L_2正規分布P(β)exp(β2/2τ2)P(\bm{\beta}) \propto \exp\left(-\| \bm{\beta} \|^2 / 2\tau^2\right)
L1L_1Laplace 分布P(β)exp(β1/b)P(\bm{\beta}) \propto \exp\left( -\| \bm{\beta} \|_1 / b \right)

他の線形回帰モデル (ロジスティック回帰, Poisson 回帰など) への拡張等を含め、他にもいろいろあるみたいなので、気が向いたら勉強してみます。

Discussions

記事がありません