case-kの備忘録

備忘録です。GCPやデータ分析系のことを呟きます。

中心極限定理をPythonで証明してみた

記事を見て頂きありがとうございます。今回は中心極限定理について記事を書いてみました。中心極限定理について二項分布・正規分布ポアソン分布を用いて説明します。

本記事の目的

本記事は以下を目的としています
中心極限定理のメリットや活用用途の理解
・実際に動かして学び理解を深める

中心極限定理とは

中心極限定理とはサンプルサイズが大きい時は、母集団分布が分からなくても、確率変数の和は正規分布に近いものとなることです。
中心極限定理は母集団がいかなる分布に従っていても、正規分布として扱うことができるのがメリットで、実際のユースケースでいうと標準化させて異なるグループ間で比較したり、二項分布より扱いやすい正規分布に近似させて確率を求めたい時に活用すると便利です。

中心極限定理のシュミレーション

コインの面が出る確率が正規分布に従うことをpythonでシュミレーションします。例えば、コインの表が出る確率、裏が出る確率は1/2なので10,000回投げたら、5,000回くらい表が出るはずです。しかし、2回投げただけでは2回とも裏がでる可能性もあります。試行回数を2回、10回、100回、50000回と試行回数が増えサンプル数が増えることで最頻値が平均になることを確認してみようと思います。

# ライブラリ
import numpy as np
import pandas as pd
from matplotlib import pyplot as plt
from scipy.special import comb
%matplotlib inline
import scipy as sp
from scipy import stats
import seaborn as sns
sns.set
n_size = 10000
n_trial = [2,10,100,50000]

# 表なら1、裏ならば0を表す。
coin = np.array([1,0])

for n_trial in n_trial:
    #表が出た回数 [全ての要素を0]
    count_coin = np.zeros(n_trial)
    # コインをn_size回投げる試行をn_trial回行う。
    np.random.seed(1)
    for i in range(0, n_trial):
        # 表の出る回数:
        """
        デバック:
        ランダムで確率変数X[coin]の値をあり当てる。
        表の出る回数1を足し合わせている
        print(np.random.choice(coin, size=n_size,replace=True))
        """
        count_coin[i] = np.sum(
            np.random.choice(
            coin, 
            size=n_size,
            replace=True))
    x = count_coin
    # ヒストグラムを描く
    sns.distplot(x, color = 'black')
    plt.show()

f:id:casekblog:20180704231455p:plain:w200f:id:casekblog:20180704231546p:plain:w200
f:id:casekblog:20180704231609p:plain:w200f:id:casekblog:20180704231630p:plain:w200


中心極限定理の注意点として母集団分布が正規分布に従う必要があるということです。母集団分布がポアソン分布であるならば、サンプルサイズが無限であったとしても母集団がポアソン分布であることは変わりません。そもそそも正規分布、二項分布、ポアソン分布が何か確認したいと思います。

確率分布

様々な確率分布について説明したいと思います。
詳しくは別記事として書きましたが代表的な確率分布について説明します。
サンプルサイズが十分に大きいとき、中心極点定理を活用できます。
次は中心極限定理のメリットについて説明させて頂きます。

正規分布とは

平均付近が一番高く、左右対称の形をしており、横軸は確率変数を、縦軸はそのときの確率密度を表します。
正規分布に従う確率変数のヒストグラムは、平均値に対して左右対象な形になるという特徴があります。
例えばサイコロを6000回投げて、3が出る確率は1/6なので3の出現回数は1000回となります。

正規分布の特徴

1. -∞ ~ +∞の実数値をとる
2. 平均値付近の確率密度が大きい
3.平均値から離れるほど確率密度が小さくなる
4.確率密度の大きさは、平均値を中心として左右対称

二項分布とは

二項分布は
結果が2つの試行を何回も繰り返すことによって起こる分布です。
詳しくは以下の記事を確認して下さい。
case-k.hatenablog.com


ポアソン分布とは

ポアソン分布は
1個・2個や1回・2回といったカウントデータが従う離散型の確率分布です。
詳しくは以下の記事を確認して下さい。

case-k.hatenablog.com

中心極限定理のメリット

中心極限定理はなぜ便利なのでしょうか?
以下の記事でも記載致しましたが、中心極限定理は母集団がいかなる分布に従っていても使うことができます。
なので、標準化させて異なるグループ間で比較したり、二項分布より扱いやすい正規分布に近似させて確率を求めることが可能です。
case-k.hatenablog.com

各分布の利用用途

記事で書いた代表的な確率分布に利用用途ついてまとめます。

試行回数 n 成功確率 p

正規分布活用CASE:

200回のサイコロ投げのように nが大きく np(1−p)≥25のときに便利です。分布を標準正規分布にすることで下記が可能となります。
・標準正規分布表を活用した確率
・T検定
・標準化による異なる分布の比較
・偏差値の算出

二項分布活用CASE:

コイン投げのように 0.1≤p≤0.9で、 n≤20のときに特に便利です。サンプル数や試行回数が少ない場合確率を求めるのに活用できます。
母集団のサンプル数が非常に少ない場合、正規分布に近似させることはできないので二項分布を活用する必要があります

ポアソン分布活用CASE:

単位時間あたりに、ある現象が何回起こるかのように pが非常に小さい値のときに利用することができます。

今回は中心極限定理を説明するにあたり、分布の異なる二項分布・正規分布ポアソン分布を
用いて説明しました。
母集団分布が分かれば、母集団分布の確率やモデルを構築するさい適切な方法を選択することができます。
データを受け取ったらまず、確率分布が何か確認してみましょう。