Warn
表現は正確でない場合があります。
確率分布 P で表される統計モデルの未知パラメータを θ∈Θ、P からのデータを X とする。これらについて、
Bayes の定理
P(θ∣X)=P(X)P(X∣θ)P(θ)
が成り立つ。ここで、
- P(θ):事前分布
- P(θ∣X):事後分布
- P(X∣θ):尤度
- P(X):周辺尤度
という。
データ X に対して、パラメータが与えられたときデータ X が得られる確率 (尤度) を最大化する方法。
MLE 推定量
θ^MLE=θargmaxP(X∣θ)
データ X を得た後の、パラメータの分布 (事後分布) を最大化する方法。
MAP 推定量
θ^MAP=θargmaxP(X∣θ)P(θ)
ここで P(X) は規格化定数と見做せる。この方法では、事前知識としてパラメータの分布 P(θ) を埋め込む事ができる。
Gauss-Markov 型の線形回帰モデル (サンプルサイズ N):
y=Xβ+ε,ε∼N(0,σ2IN)
を考え、モデルパラメータ (回帰係数) の推定量 β^ を求める。
モデルの対数尤度は
lnP(X∣β)=−2σ21∣∣y−Xβ∣∣2−2Nln(2πσ2)
であるから、MLE 推定量 β^MLE は
Important
β^MLE=βargmin∣∣y−Xβ∣∣2
これは最小二乗 (OLS) 推定量に等しい。
あるいは、一様分布を事前分布 (P(β)∝1) とする場合の MAP 推定量 β^MAP とも解釈できる。
回帰係数の事前分布として、平均ゼロ、分散 τ2 の i.i.d な正規分布:
β∼N(0,τ2IN)
を課す。規格化定数を除く確率密度は
P(β)∝exp(−2τ2∣∣β∣∣2)
である。Bayes の定理から、対数事後分布は
lnP(X∣β)∝lnP(β∣X)+lnP(β)=−2σ21∣∣y−Xβ∣∣2−2Nln(2πσ2)−2τ2∣∣β∣∣2
の形をとることがわかる。よって、MAP 推定量 β^MAP は
Important
β^MAP=βargmin(∣∣y−Xβ∣∣2+λ∣∣β∣∣2),λ:=τ2σ2
これは Ridge 回帰 (L2-正則化) に等しい。
### MAP 推定 (Laplace 分布を仮定)
以下の確率密度関数が与える分布を Laplace 分布という:
f(x;μ,b)=2b1exp(−b∣x−μ∣)
β がパラメータ b の i.i.d な Laplace 分布に従うとすると、
P(β)∝exp(−b∣∣β∣∣1)
よって、対数事後分布は
lnP(X∣β)∝lnP(β∣X)+lnP(β)=−2σ21∣∣y−Xβ∣∣2−2Nln(2πσ2)−b∣∣β∣∣1
の形をとることがわかる。よって、MAP 推定量 β^MAP は
Important
β^MAP=βargmin(∣∣y−Xβ∣∣2+λ∣∣β∣∣1),λ:=b2σ2
これは LASSO 回帰 (L1-正則化) に等しい。
β に関する事前知識として、説明変数のグループ g∈G ごとの単位で回帰係数 βg を定めたいとする。すなわち、
P(β)∝exp−bg∈G∑∣∣βg∣∣
という事前分布を課すと、対数事後分布は
lnP(X∣β)∝lnP(β∣X)+lnP(β)=−2σ21∣∣y−Xβ∣∣2−2Nln(2πσ2)−bg∈G∑∣∣βg∣∣
よって、
Important
β^MAP=βargmin∣∣y−Xβ∣∣2+λg∈G∑∣∣βg∣∣,λ:=b2σ2
これを Group LASSO という。
線形回帰における正則化は、Bayes モデリングの文脈において事前知識を組み込んだ尤度の最大化と見なす事ができます:
| 正則化 | 事前分布 | 事前分布の関数形 |
|---|
| なし | 一様分布 | P(β)∝1 |
| L2 | 正規分布 | P(β)∝exp(−∥β∥2/2τ2) |
| L1 | Laplace 分布 | P(β)∝exp(−∥β∥1/b) |
他の線形回帰モデル (ロジスティック回帰, Poisson 回帰など) への拡張等を含め、他にもいろいろあるみたいなので、気が向いたら勉強してみます。