[数理統計学]統計的推定のまとめ


通勤電車のなかで私が勉強する用のシリーズ第4弾です。今回は統計的推定についてまとめておこうと思います。統計検定のための勉強のログのようなものです。概要と、簡単な例を可能な限り集めて載せていこうと思います。

【これまでのシリーズへのリンク】


目次

不偏性

  • バイアスがゼロになるときに、その推定量は不偏性を持つという。不偏性のある推定量を不偏推定量(unbiased estimator)と呼ぶ。
  • バイアスは推定量の期待値と真のパラメータの値との差 \(E [\hat \theta] – \theta \)で表される。\( \hat \theta \)はサンプリングした分布の平均を意味しています。
  • 一意性はなく、多くの不偏推定量の中から良いものを選ぶ必要がある。任意の期待値0の確率変数を加えたとしても、不偏推定量になってしまうため、非常に弱い要請とされる。
  • 最尤推定量やモーメント推定量は一般には不偏性を持たない。
  • 一様最小分散不偏推定量(Uniformly Minimum-Variance Unbiased Estimator:UMVUE)は母数\(\theta\)の値によらず、一様に分散を最小化する不偏推定量のこと。
  • 標本平均、\( \bar X = \frac{1}{n} \sum_i X_i \)の期待値は\(E[\bar X] = \frac{1}{n}\sum_{i=1}^n E[X_i] = \frac{1}{n}n\mu = \mu \)となり、不偏推定量となる。
    標本分散、\( E \left[ \frac{1}{n} \sum_{i=1}^n (X_i – \bar X)^2 \right] = \frac{n-1}{n} \sigma^2 \)は\( \frac{\sigma^2}{n} \)だけ過少になるので、不偏推定量ではない。
    他方、\( E \left[ \frac{1}{n-1}\sum_{i=1}^n (X_i – \bar X)^2 \right] = \sigma^2 \)は不偏推定量となる。

一致性

  • 標本サイズnの推定量\(\hat \theta_n\)がnの増大とともに\( \hat \theta_n \overset{p}{\to} \theta \)のように真のパラメータ\( \theta \)に確率収束することような推定量を一致推定量(consistent estimator)と呼ぶ。
  • 標本平均の場合、\( \hat X_n \overset{p}{\to} \mu \)となり、任意の正の\( \epsilon \)に対して\( \lim_{n \to \infty} P(| \hat X_n – \mu | > \epsilon ) = 0 \)が成り立つ。
  • 標本平均・標本分散などのモーメントの推定量は一致性を持つ。連続変形したモーメント推定量も一致性を持つ。
  • 最尤推定量は適当な正則条件のもと一致性を持ち、標本サイズが大きいとさらにより良い性質を持つ。
  • \( X_1, X_2, \dots , X_n \sim N(\mu, \sigma^2) \)として(ただし独立)、\( T_n (X_1, X_2, \dots, X_n) = \frac{1}{n} \sum_{i=1}^{n}(X_i – \bar X )^2 \)が\(\sigma^2\)の一致推定量であることを示す。
    大数の法則により、\( \bar X = \frac{1}{n} \sum_{i=1}^n X_i \)は\( \mu \)になることから、
    \( \frac{1}{n} \sum_{i=1}^n (X_i – \mu)^2 \\
    = \frac{1}{n}\sum_{i=1}^n X_i^2 – 2 \mu \times \frac{1}{n}\sum_{i=1}^n X_i + \mu^2 \\
    = \frac{1}{n}\sum_{i=1}^n ( (X_i – \mu ) + \mu )^2 – 2\mu \times \mu + \mu^2 \\
    = (\mu^2 + \sigma^2) – 2\mu \times \mu + \mu^2 = \sigma^2 \)
    となり、これは一致推定量となる。

有効性

    ある不偏推定量\( \hat \theta \)が\( V_{\theta} [\hat \theta] = J_n (\theta)^{-1} \)のようにクラメール-ラオの下限を達成しているときに、有効推定量(efficient estimator)と呼ぶ。有効推定量は一様最小分散不偏推定量となる。

    ・正規分布において、標本平均は平均パラメータの有効推定量となる。
    ・バイアス補正を行った標本分散\( \frac{1}{n-1} \sum_{i=1}^n (X_i – \bar X)^2 \)は分散パラメータの一様最小分散不偏推定量だが、有効推定量ではない。

推定量の相対効率

  • 2つの不偏推定量の分散の逆数の比のこと。
  • \( e( \hat \theta_1, \hat \theta_2 )= \frac{V_{\theta} [(\hat \theta_2)]}{V_{\theta} [(\hat \theta_1)]} \)
    などとおいて、\( e( \hat \theta_1, \hat \theta_2 ) > 1 \)のとき、\( \hat \theta_1 \)が優れている見なし、\( e( \hat \theta_1, \hat \theta_2 ) < 1 \)のとき、\( \hat \theta_2 \)が優れていると見なす。
  • \( e( \hat \theta_1, \hat \theta_2 )= \frac{E_{\theta}[(\hat \theta_2 – \theta )^2]}{E_{\theta}[(\hat \theta_1 – \theta)^2]} \)
    などとおいて、一般の推定量に拡張することもできる。

最小分散不偏推定量

クラメール・ラオの不等式

  • ある推定量が不偏推定量であるかどうかを確かめることができる条件式のこと。
  • 不偏推定量\( \hat \theta \)は適当な正則条件のもとで、
    \( V_{\theta}[\hat \theta] \geq J_n (\theta)^{-1} \)を満たすというもの。\( J_n(\theta) \)は対数尤度のパラメータに関する導関数の分散となっており、フィッシャー情報量と呼ばれる。

フィッシャー情報量、フィッシャー情報行列

  • フィッシャー情報量は以下の式のことを指す。

    \( J_n(\theta) = E_{\theta} \left [ \left ( \frac{\partial}{\partial \theta} \log f(x;\theta) \right)^2 \right ] = V_{\theta} \left [ \left ( \frac{\partial}{\partial \theta} \log f(x;\theta) \right) \right ] \)

    データを観測したとき、確率密度関数の対数がパラメータが少し変わった際に、どれだけ変化するのかを測るもので、大きければ大きいほど推定量の分散の下限が小さくなる。パラメータがどれだけ効率的にもっともらしい値を捉えにいっているかを指し示していると思えばよい。行列の場合、クラメール-ラオの不等式は分散共分散行列からフィッシャー情報行列を差し引いたものが、非負値定符号であるかどうかを確かめるものとなる。
    \( Cov_{\theta} (T) \geq I^{-1}_{X_1, X_2, \dots, X_n}(\theta) \)
    これは同時に、以下の行列が非負値定符号であることを意味する。
    \( Cov_{\theta} (T) – I^{-1}_{X_1, X_2, \dots, X_n}(\theta) \)

    ここで、j行k列の成分は

    \( E_{\theta} \left [ \frac{ \partial }{ \partial \theta_j} \log \prod_{i=1}^n f(X_i , \theta) \frac{\partial}{\partial \theta_k} \log \prod_{i=1}^n f(X_i , \theta) \right ] \)

    となる。

十分統計量

  • ある分布のパラメータ\( \theta \)を推定したいときに、分布から得られた標本Xのうち推定に十分な情報を含んだ統計量\( T = T(X) \)を十分統計量と呼ぶ。
  • \( P(X=x | T(x)=t, \theta) = P(X=x | T(x) = t) \)

    のように\( T(x) \)で条件づけたXの分布がパラメータによらないとき\( T(x) \)が十分統計量になる。

  • $$
    \begin{cases}
    X_i = 1 \ if \ ith \ coin \ is \ heads \\
    X_i = 0 \ if \ ith \ coin \ is \ tails
    \end{cases}
    $$
    ここでは\( T(X) = \sum_{i=1}^nX_i \)、つまり、コインの表の数の合計が十分統計量であることを示す。
    コイン投げの表の合計値は二項分布に従うので、表の出る割合\( \mu \)が与えられたもとでのXの条件付き確率は
    $$ P(X=x | \mu) = \prod_{i=1}^n \mu^{x_i}(1-\mu)^{1-x_i} \\
    = \mu^{T(x)}(1-\mu)^{n-T(x)} \\
    = (1 – \mu)^n \left ( \frac{\mu}{1-\mu} \right )^{T(x)}
    $$
    ここで\( T(X) \)に関する確率
    $$ P(T(X)=t | \mu) = \sum P(X=x|\mu) \\
    {}_n C _t (1 – \mu)^n \left ( \frac{\mu}{1-\mu} \right )^{T(x)}
    $$
    \( T(X) \)に関する条件付き確率は
    $$ P(X=x | T(X)=t, \mu) \\
    = \frac{P(X=x, T(X)=t | \mu)}{P(T(X)=t | \mu)} \\
    = \frac{(1 – \mu)^n \left ( \frac{\mu}{1-\mu} \right )^{t} 1(T(X)=t) }{{}_n C _t (1 – \mu)^n \left ( \frac{\mu}{1-\mu} \right )^{t} } \\
    = \frac{1}{{}_n C _t} 1(T(X)=t)
    $$
    となり、分布がパラメータによらず、十分統計量となっていることがわかる。( \( 1(T(X)=t) \) はインデックス関数)

Newmanの因子分解定理

  • 十分統計量かどうかを簡単に判定するための方法で、\( T(X) \)が\( \theta \)の十分統計量であるとき、またそのときに限り、
    $$f(x; \theta) = h(x)g(T(X),\theta)$$
    となる関数hとgが存在するというもの。密度関数を\( \theta \)によらない関数と、\( \theta \)による関数の積に分解したとき、後者が\( T(X) \)のみを含むような分解が存在する。

ラオ・ブラックウェルの定理

  • 計算が容易ではない条件付き期待値\( E(S|T) \)の計算を行わずに、不偏推定量を求めることができる定理。
  • \( \delta (X) \)をパラメータ\( \theta \)のある推定量として、Tを\( \theta \)の十分統計量のうちの一つとする。十分統計量で条件付けた推定量の期待値を以下のように定義する。
    $$\delta_1 (T) = E_{\theta} [ \delta (X) | T ] $$
    その場合、ラオ・ブラックウェルの定理は以下を保証する。
    $$E_{\theta} [(\delta_1(T) – \theta )^2] \leq E_{\theta} [(\delta(X) – \theta )^2] $$
    つまり、\( \delta_1 \)の平均二乗誤差は\( \delta \)の平均二乗誤差以下になる。
  • ただし、十分統計量の関数になっている不偏推定量がいつも一様最小分散不偏推定量をもたらすとは限らず、それがラオ・ブラックウェルの定理の弱点とされている。
  • ケンブリッジ大学のラオ・ブラックウェルの定理に関する資料を見つけました。ポアソン分布と一様分布に関する例が載っています。

順序統計量

  • 標本を昇順に並べ直したもの、もしくはそのうちの特定の順位の標本\( X_{(i)} \)に注目した統計量。
  • 中央値( \( X_{(\frac{n}{2})} \) )、最大値( \( X_{(n)} \) )、最小値( \( X_{(1)} \) )、四分位数などが順序統計量にあたる。
  • n個の標本を昇順に並べ替えた統計量\( (X_{(1)}, \dots, X_{(n)}) \)はフィッシャー・ネイマンの分解定理を用いることで統計量だけからなる関数に分解できることから、母集団の平均や分散の十分統計量になっている。
    $$f(x_1, \dots, x_n |\mu,\sigma) = \prod_{i=1}^n f(x_i | \mu, \sigma) = \prod_{j=1}^n f(x_{(j)}|\mu, \sigma) $$

    最後の項が並べ替えた統計量からなっている。

最尤推定量

  • 尤度関数\( L(x, \theta) \)を最大化するパラメータ\( \hat \theta = \hat \theta (x) \)のことを最尤推定量と呼ぶ。
  • 最尤推定法は観測についての直感に基づいて定義された推定法とされる。推定の誤差についての記述は定義の中にない。

尤度関数

  • 確率(密度)関数をxが固定された\(\theta\)の関数と考えたもの。
  • パラメータ\( \theta \)が持っている、観測値\( x_1, x_2, \dots , x_n \)を実現させるもっともらしさを表している。手元にある観測値は起こりにくい状態(パラメータ)から得られたと考えるより、起こるべくして起こったと考えるのが自然。

対数尤度関数

  • 尤度関数の対数。\( l(\theta) = \log L(\theta) \)
  • 対数にすることで、独立な確率変数の同時確率を加算に直すことができたり、期待値の計算が簡単になったり、大数の法則や中心極限定理などを適用しやすくなる。

有効スコア関数

  • 対数尤度がパラメータ\( \theta \)で偏微分できるとき、その微分値を\( \theta \)の関数としたもの。
    $$V(\theta) = V(x, \theta) = \frac{\partial}{\partial \theta} l(x, \theta) = \frac{\partial}{\partial \theta} \log f(x;\theta) $$
  • スコア関数の分散はフィッシャー情報量と呼ばれる。
  • 最尤推定値の定義から、任意のxに関してスコア関数は\( V(x, \hat \theta (x)) = 0 \)を満たす。(微分してゼロなので。)
  • \( E_{\theta}\left [ g(X) \right ] \)が\( \theta \)に依存しないような任意の関数\( g(x) \)について、
    $$ E_{\theta}\left [ g(X) V(X, \theta) \right ] \\
    = \int g(x)f(x;\theta)\frac{\partial}{\partial \theta} \log f(x;\theta)dx \\
    = \int g(x)f(x;\theta) \frac{ \frac{\partial}{\partial \theta} f(x;\theta) }{f(x;\theta)}dx \\
    = \frac{\partial}{\partial \theta} \int g(x)f(x ; \theta)dx \\
    = \frac{\partial}{\partial \theta} E_{\theta}\left [ g(X) \right ]=0 $$
    が成り立つ。これらの性質は情報量規準や漸近理論において役に立つ。

モーメント法

  • モーメントを用いて、パラメータをモーメント関数で表し、それを推定値として用いる推定手法のこと。密度関数の形が複雑なときに、分布のパラメータ推定の手法として有力とされる。
  • m個のパラメータ\( \theta = (\theta_1, \dots, \theta_m) \)をもつ確率密度関数に関して、中心モーメントを以下のように定義する。
    $$ \mu_1 = \int x f(x;\theta)dx \\
    \mu_k = \int (x-\mu_1)^k f(x;\theta)dx \\
    k=2,3,\dots$$
    この場合、\( \mu_1 \)は平均、\( \mu_2 \)は分散となる。
    先ほどの中心モーメントを以下のように、パラメータの関数として表現することもできる。
    $$ \mu_1 = m_1(\theta) \\
    \mu_k = m_k(\theta)
    $$
    これらの式は\( \theta \)の連立方程式であるから、中心モーメントの関数としてパラメータを表すこともできる。
    $$ \theta_j = g_j (\mu_1, \dots, \mu_k) \\
    j = 1, \dots, m $$
    標本平均や標本分散を用いると、
    $$ \hat \theta_j = g_j (\hat \mu_1, \dots, \hat \mu_k) $$
    となり、実際はこれを推定値として使う。
  • 標本モーメントは真のモーメントに確率収束することから、\(g_j\)が連続関数のときに推定量の一致性が保証される。
  • ガンマ分布のパラメータ推定
    $$ f(x;\alpha, \lambda) = \frac{\lambda^\alpha}{\Gamma(\alpha)}x^{\alpha -1}e^{-\lambda x} \\
    (x \geq 0 ) $$
    期待値

    $$ \mu_1 = \frac{\alpha}{\lambda} \Rightarrow \alpha = \frac{\mu_1^2}{\mu_2} \Rightarrow \hat \alpha = \frac{\bar X^2}{\sum (X_i – \bar X)^2/n} $$

    分散

    $$ \mu_2 = \frac{\alpha}{\lambda^2} \Rightarrow \lambda = \frac{\mu_1}{\mu_2} \Rightarrow \hat \lambda = \frac{\bar X}{\sum (X_i – \bar X)^2/n} $$

最小二乗法

  • 残差の二乗和\( \sum^n ( Y_i – f(X_i) )^2 \)を最小にするような関数fを選ぶ手法。二乗であると計算が簡単になる、あるいは、正規分布の撹乱項が加わっている\( Y_i = f(X_i) + \epsilon_i \)というモデルの最尤法と一致するなどの利便性がある。

最良線形不偏推定量(BLUE)

  • 線形不偏推定量の中で平均二乗誤差\( E[(\hat \beta – \beta )^2] \)を最小化するような\( \hat \beta \)となる推定量のこと。
  • 各iについて、\( E(\epsilon_i) = 0, V(\epsilon_i)=\sigma^2 < \infty \)が共通で、さらに、\( i \neq j \)のとき、\( E(\epsilon_i \epsilon_j) = 0 \)とするときに、最小二乗推定量\( \hat \beta _{OLS} \)とBLUEは一致するという定理を、ガウス・マルコフの定理と呼ぶ。誤差項の期待値に関する仮定しかないという点でシンプルな定理となっている。
    $$ \hat \beta _{OLS} = \frac{\sum_i x_i Y_i }{ \sum_i x_i^2 } $$
    $$ E[\hat \beta _{OLS}] = E \left [ \frac{ \sum_i x_i(\beta x_i + \epsilon_i)}{\sum_i x_i^2} \right ] \\
    = \beta + \frac{\sum x_i E( \epsilon_i )}{\sum x_i^2} \\
    = \beta $$
  • 平均二乗誤差\( E_{\beta} [ (\hat \beta – \beta)^2 ] \)は未知である、真のパラメータ\( \beta \)を用いているので、実際に計算することはできないので、標本X,Yから計算できる二乗誤差を最小化することとなる。

区間推定

  • 平均などのパラメータを推定する際に、ある一点ではなく区間でもって推定すること。
  • ある確率分布に従う標本\( X \sim P_{\theta} \)に対して、ある関数L, Uに対して
    $$P_{\theta}( L(X) < \theta < U(X)) \geq 1 – \alpha $$
    が全ての\( \theta \)で成立しているときに、\( (L(X),U(X)) \)を信頼係数\( 1 – \alpha \)の信頼区間と呼びます。これは真のパラメータ\(\theta\)が\( (L(X),U(X)) \)に入る確率ではなく、\( (L(X),U(X)) \)が真のパラメータ\(\theta\)を含む確率と考えます。被覆確率とも呼ばれています。
  • 先ほど、信頼係数というものが出てきましたが、真の値が入る確率ではありません。信頼係数が95%あるということは、10000回標本を集めて、パラメータを推定し区間を求めた際に、500回は母集団平均を含む区間を得られない(9500回は母集団平均を含む範囲を得られる)ということを意味しています。ただ、実際は研究する際に、「標本を集めることはたかだか1回しかできず、その1回の推定が20回に1回は母集団平均を含んでくれないという前提」を知った上で、結果を甘んじて受け入れるだけです。
  • 正規分布に従う標本平均\( \bar X_n \sim N( \mu, \frac{1}{n} ) \)について考える。片側\( \frac{\alpha}{2} \)の点をおくと、以下のようになる。

    $$ – \frac{Z_{\frac{\alpha}{2}}}{\sqrt n } < \bar X – \mu < \frac{Z_{\frac{\alpha}{2}}}{\sqrt n } $$

    これは確率にすると\( \alpha \)を差っ引いた、\( 1 – \alpha \)がこの範囲の取りうる確率となる。これを書き換えると、以下のようになり、信頼区間の上限と下限を計算できる。
    $$ P_{\mu} \left ( \bar X – \frac{Z_{\frac{\alpha}{2}}}{\sqrt n } < \mu < \bar X \frac{Z_{\frac{\alpha}{2}}}{\sqrt n } \right ) = 1 – \alpha $$

相関係数の区間推定

  • 相関係数の分布は歪んだ形をしているため、正規分布で近似することに問題がある。そこで、Fisherのz変換と呼ばれる手法を用いることで相関係数の分布が正規分布に従うようにする。
  • Fisherのz変換を行った場合、nが十分大きいときに近似的に相関係数は以下の正規分布に従う。
    \( \xi (r) = \frac{1}{2} \log \frac{1+r}{1-r} \)
    平均:\( \xi (\rho_{XY} ) = \frac{1}{2} \log \frac{1+\rho_{XY}}{1-\rho_{XY}} \)
    分散:\( \frac{1}{n-3} \)

    片側\( \frac{\alpha}{2} \)の点をおくと、以下のようになる。
    $$ – \frac{Z_{\frac{\alpha}{2}}}{\sqrt{n-3} } < \xi (r) – \xi (\rho_{XY}) < \frac{Z_{\frac{\alpha}{2}}}{ \sqrt{n-3} } $$
    これは確率にすると𝛼を差っ引いた、1–𝛼がこの範囲の取りうる確率となる。

    $$ P \left ( \xi(r) – \frac{Z_{\frac{\alpha}{2}}}{\sqrt{n-3} } < \xi (\rho_{XY}) < \xi (r) + \frac{Z_{\frac{\alpha}{2}}}{\sqrt{n-3} } \right ) \simeq 1 – \alpha $$

    これを書き換えると、以下のようになり、信頼区間の上限と下限を計算できる。

    $$ \xi^{-1} \left ( \xi(r) – \frac{Z_{\frac{\alpha}{2}}}{\sqrt{n-3} } \right ) < \rho_{XY} < \xi^{-1} \left ( \xi (r) + \frac{Z_{\frac{\alpha}{2}}}{\sqrt{n-3} } \right ) $$

    ここで逆関数は\( \xi^{-1}(x) = \frac{e^x – e^{-x}}{e^x + e^{-x}} \)となっているものとする。

デルタ法

  • 推定量の漸近正規性を示すことができる方法の一つ。ある変数が正規分布に従う場合、その連続関数も漸近的に正規分布に従うという理論。GreenのAppendixに載っている記述によると、
    \( \sqrt{n}(z_n – \mu ) \overset{d}{\to} N(0, \sigma^2) \)かつ\( g(z_n) \)がnと関係しない連続関数であれば、
    $$ \sqrt{n}[ g(z_n) – g(\mu) ] \overset{d}{\to} N(0, \{g'(\mu)\}^2\sigma^2) $$
    が成り立つと記されています。これはよく見ると、線形のテイラー近似における平均と分散に他なりません。
    $$ g(z_n) \simeq g(\mu) + g'(\mu)(z_n – \mu) $$

AIC

  • 赤池情報量規準。多項式の中で何次の多項式を用い、さらにどのような係数パラメータを用いれば良い推定を行えるのか(モデル選択の問題)を追究することが目的の指標。対数尤度などからなり、それに負号をかけているため小さければ小さいほど良い指標となる。
    AICは以下の式で表される。

    $$AIC = -2 \sum_{i=1}^n \log f(X_i ; \hat \theta_n^{ML} ) + 2dim(\theta) $$

    第1項は対数尤度、第2項は罰則項。2倍されているのは、モデルが正しいときに、第1項が漸近的にカイ二乗分布に従うため。より小さい値を求めているため、対数尤度は大きい方がいいし、罰則項は小さい方がいい。

  • AICで比較できるモデルは、それぞれが包含関係にあるようなもののみとされているので扱う際は注意が必要。
  • 通っていた大学の教授が、赤池先生は生きていればノーベル経済学賞を受賞できたのではないかと仰っていたのを思い出した。
  • 多項式回帰の場合のAIC
    まず、対数尤度は以下の形を考える。
    $$ \log f(y ; \hat \alpha, \hat \sigma) \\
    = \frac{n}{2} \log (2\pi \hat \sigma^2) – \sum_{i=1}^n (Y_i – f(X_i ; \hat \alpha))^2 \\
    = -\frac{n}{2} \log (2\pi) – \frac{n}{2} \log \hat \sigma^2 – \frac{n}{2} $$
    この場合、AICは以下のようになる。

    $$ AIC = n \log 2\pi + n + n \log \hat \sigma^2 + 2(d+2) $$

    最後の項は次数dの多項式のd、切片、標本分散の数からd+2となる。

カルバック-ライブラー情報量とAICの導出

  • カルバック=ライブラー情報量(KLダイバージェンス)は二つの分布(例えばF,Gとする)の間の近さを測るための指標で、それぞれの密度関数をf,gとすると、
    $$KL( f \| g ) = \int f(x) \log \frac{f(x)}{g(x)} dx $$
    で定義される。ただし、\( – 0 \log 0 = 0 \)となる。カルバック=ライブラー情報量には対称性はなく数学的な距離を測るものではない。
    カルバック=ライブラー情報量の下限が0であることを示すために、-logの凸性よりイェンセンの不等式を用いると、
    $$KL( f \| g ) = \int f(x) \left ( – \log \frac{g(x)}{f(x)} \right ) dx \\
    \geq – \log \left ( \int f(x) \frac{g(x)}{f(x)}dx \right ) \\
    = – \log 1 = 0 $$
    となる。また、カルバック=ライブラー情報量の最大化は平均対数尤度\( E_f [\log g(X)] \)の最大化と対応している。
  • カルバック=ライブラー情報量はAICの導出において重要な役目を果たす。
    カルバック=ライブラー情報量で真の分布と真の分布に近づけようとする推定量\( \hat \theta \)をもった分布との距離を計算すると、

    $$ KL(f(y;\theta) \| f(y; \hat \theta (X)) )\\
    = \int f(y;\theta)\log f(y ; \theta)dy – \int f(y;\theta) \log f(y;\hat \theta(x))dy $$

    となる。第1項目は推定量\( \hat \theta \)とは無関係に定まるが、第2項には含まれている。カルバック=ライブラー情報量の下限が0であることから、
    $$\int f(y;\theta) \log f(y;\hat \theta(x))dy$$
    を最大化するような\( \hat \theta \)が良い推定量となる。
    実際に計算できる最大対数尤度は、
    $$ \sum_{i=1}^n \log f(X_i ; \hat \theta_n^{ML}(X) ) $$
    であり、ここで、真のパラメータ\( \theta \)を持つ分布から標本\( Y_1, \dots, Y_n \)が無作為抽出で得られたとして、XとYが同じ分布に従うことから、

    $$ \sum_{i=1}^n \log f(X_i ; \hat \theta_n^{ML}(X) ) \sim \sum_{i=1}^n \log f(Y_i ; \hat \theta_n^{ML}(Y) ) $$

    となる。しかしながら、先ほどカルバック=ライブラー情報量にあった推定値は、
    $$\sum_{i=1}^n \log f(Y_i ; \hat \theta_n^{ML}(X) )$$
    であるから、これは最適ではないため以下の不等号となる。

    $$ \sum_{i=1}^n \log f(X_i ; \hat \theta_n^{ML}(X) ) \sim \sum_{i=1}^n \log f(Y_i ; \hat \theta_n^{ML}(Y) ) \\
    \geq \sum_{i=1}^n \log f(Y_i ; \hat \theta_n^{ML}(X) ) $$

    となる。AICの第1項目に現れる最大対数尤度は、真のパラメータに従う分布から得られたYをもとに計算した平均対数尤度よりも大きくなってしまうため、つまり、負号をつけると、不当に小さくなってしまうため、補正するための項が必要になる。それがAICの第2項目となる。
    実際のところ、AICの第2項目は漸近理論において、標本サイズnが十分に大きいときに、補正のための項がパラメータの次元\( dim(\theta) \)で近似されるところに由来している。

参考文献

[1]
[2]日本統計学会(2013), 『日本統計学会公式認定 統計検定1級対応 統計学』, 東京図書
[3]鈴木・山田(1996),『数理統計学―基礎から学ぶデータ解析』,内田老鶴圃
[4]William H. Greene (2019),”Econometric Analysis, Global Edition”, Pearson Education

コメントを残す

メールアドレスが公開されることはありません。 が付いている欄は必須項目です