D_dof

数理統計と機械学習

中心極限定理

時々驚くような定理に出会うことがあります. 全く自明でないような事柄を鮮やかに表現してしまったり, 凡人には思いもつかないような発想で 問題を解決してしまうような. 中心極限定理(Central Limit Theorem, CLT)はそのような定理の一つであると思います. 間違いなく. この定理に初めて出会った時に「世の中にはすごい定理があるもんだな」と思った記憶が明確に残っています.

それでは実際に中身を見てみましょう. 表現の仕方は何通りもありますが, 次のような表現ができます.


平均 \mu, 分散 \sigma^{2}を持つ分布にそれぞれ独立に従う確率変数 X_1, X_2, \dots, X_nの標本平均 \bar{X} = \frac{1}{n}   \sum_{i=1}^{n} X_iについて標準化した確率変数 Z_n = \frac{\sqrt{n}(\bar{X} - \mu)}{\sigma}に対して

\begin{align} \displaystyle \lim_{n \to \infty} P(Z_n \le z) = \int_{- \infty}^{z} \frac{1}{\sqrt{2 \pi}} e^{- \frac{x^{2}}{2}} dx \end{align}

が成立する. すなわち,  Z_nは標準正規分布に分布収束する.


とても美しいですね.

どこが特に美しいかというと元の分布にほとんど制約を置いていないにも関わらず定理が成り立つ点です. 元の分布が平均と分散さえ持っていれば良いと言っているのは余りにも強力です.

よくわかんないな, と思える標本に対しても「おそらく平均と分散はあるだろう」と仮定してしまえば, (そしてi.i.d.な標本の列だと思えば)中心極限定理を使える, というわけですね.