異なるグループ間の比較方法として「標準化」と呼ばれる統計的手法があります。同じテストの結果を比較することはは容易ですが、異なる科目のテスト結果の比較は点数だけでは判断できません。このような場合「標準化」は有益です。今回は「標準化」の関連用語や例題を通して、実社会の課題に対しても活用できるようになることを目的に記事を書いてました。
標準化とは
標準化は異なるグループを平等に比較する際に用いられます。例えば、Aさんは異なるグループである、数学と国語のテストを受験したとします。テストの結果、Aさんは数学70点、国語50点でした。点数だけ見るとAさんは数学の方が得意に見えますが、他の生徒との平均を比べてみないとわかりません。このようなケースで標準化を使うと、異な教科[グループ]でどちらの点数が良いのか確認することができます。
標準化させるためには以下の条件を満たす必要があります。
・独立な正規分布に従うこと ・平均値を求められること ・標準偏差を求められること
上記を満たす場合、標準正規分布の統計値をZとするとZは以下の式で表現できます。
X : 確率変数
μ:確率変数の平均
σ : 標準偏差
このZ値を標準化と呼びます。
case-k.hatenablog.com
実際に例題を解いてみましょう。
累積分布関数とは
確率変数Xに対してXを実装するとき以下のように表されるF(X)を累積分布関数・もしくは分布関数と呼び下記の数式で表現されます。
F(X) = P(X<x)
簡単に言うとある値以下となる確率を計算してくれるものです。例えば3以下となる確率の計算であれば、-∞~3までの確率密度を全て足し合わせたものです。この方法で求めた確率を下側確率と呼び、確率変数Xをパーセント点と呼びます。
例題
あるクラスのテスト結果は平均72.8点、標準偏差15点の正規分布に従っています。この時、88点以上の人は何%か求めよ。
累積分布関数を用いて求めよ。
#累積分布関数 print("Cumulative Distribution Function{:.4f}".format( stats.norm.cdf(loc = 72.8, scale = 15, x = 88))) print("answoer:{:.3f}".format(1 -0.8445)) # out put Cumulative Distribution Function0.8445 answoer:0.155
先ほどの標準正規分布表から求めた値と同じとなりました。パーセント点を求める方法は下記となります。
# ppf [Percent Point Function] under_prob = 1- 0.155 x = stats.norm.ppf(loc = 72.8, scale = 15, q = under_prob) print("Percent Point Function{:.1f}".format(x)) # out put Percent Point Function88.0
標準化は偏差値の算出にも使われます。
偏差値とは
偏差値は以下の方法で表現されます。
偏差値 = Z値 * 10 + 50
点数のばらつきの大きさを表す標準偏差を利用して平均点との差を正規化することで、自分の点数がその集団の中でどのくらいの位置にいるのかを客観的に比較しやすくしたものです。このように二項分布を正規分布に近似させることができれば多くのメリットがあります。
次にポアソン分布について学びます。
例題
あるクラスの数学と国語のテストの結果は次の通りでした。A君は数学が80点、国語が70点でした。A君の偏差値はどちらの科目が高いでしょうか?
数学と国語の点数はそれぞれ独立な正規分布に従います。
数学 平均点:60点 標準偏差:15点
国語 平均点:40点 標準偏差:20点
Z_math = (80 - 60) / 15 print('math z score:{:.2f}'.format(Z_math)) Z_japanese = (70 - 40) / 20 print('japanese z score:{:.2f}'.format(Z_japanese)) # out put print("数学の偏差値:{}".format(50+10*Z_math)) print("国語の偏差値:{}".format(50+10*Z_japanese))
標準化した値が大きいほど相対的な順位が高いことを示すので、A君の場合は数学よりも国語の方が順位は高いと言えます。