目で見る分布(二項分布・正規分布・t分布・カイ二乗分布)
分布いろいろ
目で見て、そして、それがどんな目的で使われるのかの観点で。
二項分布
コイン投げ(表が出たら成功、裏が出たら失敗)のような、何かを行ったときに起こる結果が2つしかない問題がある。このとき、成功した回数とその確率は、二項分布に従う。(X軸=表がでた回数、Y軸=その確率。)
グラフは10回投げた時。10回中、5回表がでる確率が一番高く、その確率はおよそ0.25である。
次は100回投げた時。普通のコイン(表が出る確率が0.5)と、イカサマなコイン(表がでる確率が0.3に抑えられてる)も記載。
- 普通のコイン(青):表が50回の確率が一番高くなっている
- イカサマコイン(緑):表が30回の確率が一番高くなっている
二項分布は、試行回数が増えると正規分布で近似(代用)してよし
正規分布
世の中のいろいろな出来事(女性の身長、男性の身長、テストの点数、ある地点の年間雨量100年分、ある小学校のスポーツテストの100m走の記録、等)は、正規分布に従うといわれている。なぜかわかんないけどそうなるようになっている、自然の摂理、みたいなもの、ということらしい。このカーブを数学的に表現しようとして一生懸命考えだされたのが正規分布の計算式。
なおこの形、中央が高くて、端に行くほど左右均等に下がっていく、釣り鐘型と呼ばれるが、元々の表現であるベルと呼べと言われているそうな。確かにベルだよなあ。
t分布
t検定のときに使うt値の分布。正規分布によく似た形をしている。
統計でよく扱われる、母集団全体を調べるのは無理だけど一部分から何かを推定する、という問題では、偏差の代わりに不偏偏差、正規分布ではなくt分布を使って区間推定を行うのが理論上正しい。偏差ではなく不偏偏差(不偏分散は分母がN-1になる)・グラフの形が正規分布ではなくt分布になるが、考え方やグラフの見方は同じ。
グラフでdf=5, 10はそれぞれt分布の自由度=5, 10を示した。赤は正規分布。
自由度(ここではサンプル数 - 1 のこと)によりグラフの形が異なる。自由度が十分に大きい(具体的には一般的に30)ときはその形は正規分布で近似してよい。確かにdf=5よりdf=10のほうが正規分布に近い。
なお「30」とは、統計学のバイブル的存在の赤本に書いてあるそう。私が読んだ別の本でも30だった。
標本 n が「十分に大きい」の大きさは?(正規分布・t分布) | あぱーブログ
t分布は Student's t-distributionとも呼ばれるが、スチューデントさんが論文発表したから、なんだけど、実はこれ偽名で、会社で従業員による科学論文の公表を禁止していたので、バレない様に「スチューデント」というペンネームを使用して論文を発表したんだそう。(そんな小ネタの方を先に覚えてしまう)
カイ二乗分布(χ二乗分布)
カイ二乗検定で使う分布。カイ二乗検定とは、別名「独立性の検定」。クロス集計で示される内容で、関係があったのかなかったのか、関係があったと言い切ってよいのか。を検定するのがカイ二乗検定。
※自由度によりグラフの形が異なる(自由度(df) =1 と 2を記載)
※χはギリシャ文字の「カイ」
おまけ(グラフ内のpmf, pdf補足)
グラフはpythonで。scipy.statsの各ファンクション説明のサンプルコードを参考にした。グラフのラベルで「pmf」「pdf」の命名はそのサンプルコードそのままだが、それぞれ
- pmf: probability mass function (確率質量関数)
→ 離散確率変数が“ある値”となる確率を与える関数 - pdf: probability density function(確率密度関数)
→ 連続確率変数がある値をとるという事象の相対尤度を記述する関数
の略。前者はサイコロみたく「1が出るとき」「2が出るとき」のような離散値に対する確率を示す関数(縦軸が確率)。後者は身長みたく連続量に対する確率密度を示す関数(面積が確率。連続量なので例えば身長が170cmから171㎝である確率はいくつか?のような方法で求めることになる)。
今日の単語帳
- 二項分布:binomial distribution
- 正規分布:normal distribution
- ガウス分布:Gaussian distribution
- t分布:Student's t-distribution
- カイ二乗分布:chi-square distribution
- 確率質量関数:probability mass function
- 確率密度関数:probability density function