記事を見て頂きありがとうございます。今回は中心極限定理について記事を書いてみました。中心極限定理について二項分布・正規分布・ポアソン分布を用いて説明します。
本記事の目的
本記事は以下を目的としています
・中心極限定理のメリットや活用用途の理解
・実際に動かして学び理解を深める
中心極限定理とは
中心極限定理とはサンプルサイズが大きい時は、母集団分布が分からなくても、確率変数の和は正規分布に近いものとなることです。
中心極限定理は母集団がいかなる分布に従っていても、正規分布として扱うことができるのがメリットで、実際のユースケースでいうと標準化させて異なるグループ間で比較したり、二項分布より扱いやすい正規分布に近似させて確率を求めたい時に活用すると便利です。
中心極限定理のシュミレーション
コインの面が出る確率が正規分布に従うことをpythonでシュミレーションします。例えば、コインの表が出る確率、裏が出る確率は1/2なので10,000回投げたら、5,000回くらい表が出るはずです。しかし、2回投げただけでは2回とも裏がでる可能性もあります。試行回数を2回、10回、100回、50000回と試行回数が増えサンプル数が増えることで最頻値が平均になることを確認してみようと思います。
# ライブラリ import numpy as np import pandas as pd from matplotlib import pyplot as plt from scipy.special import comb %matplotlib inline import scipy as sp from scipy import stats import seaborn as sns sns.set
n_size = 10000 n_trial = [2,10,100,50000] # 表なら1、裏ならば0を表す。 coin = np.array([1,0]) for n_trial in n_trial: #表が出た回数 [全ての要素を0] count_coin = np.zeros(n_trial) # コインをn_size回投げる試行をn_trial回行う。 np.random.seed(1) for i in range(0, n_trial): # 表の出る回数: """ デバック: ランダムで確率変数X[coin]の値をあり当てる。 表の出る回数1を足し合わせている print(np.random.choice(coin, size=n_size,replace=True)) """ count_coin[i] = np.sum( np.random.choice( coin, size=n_size, replace=True)) x = count_coin # ヒストグラムを描く sns.distplot(x, color = 'black') plt.show()
中心極限定理の注意点として母集団分布が正規分布に従う必要があるということです。母集団分布がポアソン分布であるならば、サンプルサイズが無限であったとしても母集団がポアソン分布であることは変わりません。そもそそも正規分布、二項分布、ポアソン分布が何か確認したいと思います。
確率分布
様々な確率分布について説明したいと思います。
詳しくは別記事として書きましたが代表的な確率分布について説明します。
サンプルサイズが十分に大きいとき、中心極点定理を活用できます。
次は中心極限定理のメリットについて説明させて頂きます。
正規分布とは
平均付近が一番高く、左右対称の形をしており、横軸は確率変数を、縦軸はそのときの確率密度を表します。
正規分布に従う確率変数のヒストグラムは、平均値に対して左右対象な形になるという特徴があります。
例えばサイコロを6000回投げて、3が出る確率は1/6なので3の出現回数は1000回となります。
正規分布の特徴
1. -∞ ~ +∞の実数値をとる
2. 平均値付近の確率密度が大きい
3.平均値から離れるほど確率密度が小さくなる
4.確率密度の大きさは、平均値を中心として左右対称
中心極限定理のメリット
中心極限定理はなぜ便利なのでしょうか?
以下の記事でも記載致しましたが、中心極限定理は母集団がいかなる分布に従っていても使うことができます。
なので、標準化させて異なるグループ間で比較したり、二項分布より扱いやすい正規分布に近似させて確率を求めることが可能です。
case-k.hatenablog.com
各分布の利用用途
記事で書いた代表的な確率分布に利用用途ついてまとめます。
試行回数 n 成功確率 p
正規分布活用CASE:
200回のサイコロ投げのように nが大きく np(1−p)≥25のときに便利です。分布を標準正規分布にすることで下記が可能となります。
・標準正規分布表を活用した確率
・T検定
・標準化による異なる分布の比較
・偏差値の算出
二項分布活用CASE:
コイン投げのように 0.1≤p≤0.9で、 n≤20のときに特に便利です。サンプル数や試行回数が少ない場合確率を求めるのに活用できます。
母集団のサンプル数が非常に少ない場合、正規分布に近似させることはできないので二項分布を活用する必要があります