notebook 001

INPUTとOUTPUTの個人的な備忘録です。

データを要約する（サマる）こと。分散・標準偏差・正規分布。

統計学

データを要約する（サマる）
- 離散値（整数で表現できる数字）
- 連続量（小数点込みで表現する数字）
データをサマって可視化する
- 箱ひげ図（boxplot）
- ヒストグラム
標準偏差と正規分布
- 分散と標準偏差
- 正規分布（ガウス分布）、で、何が嬉しいの？
今日の単語帳

データを要約する（サマる）

離散値（整数で表現できる数字）

例：販売個数、人数
データを要約する → 中央値
ばらつきを表現する → 四分位範囲、外れ値
可視化 → 箱ひげ図（boxplot）

連続量（小数点込みで表現する数字）

例：気温、体重
データを要約する → 平均値
ばらつきを表現する → 分散 (標準偏差)
可視化 → ヒストグラム

可視化については、離散値であっても標準偏差や正規分布を使う場合もあるし（例：テストの点数）、連続量であっても箱ひげ図で書いても、状況に応じてよいのではと。
ただ確率を求める場合は離散値と連続量では式の解釈が異なってくるので注意。

データをサマって可視化する

箱ひげ図（boxplot）

例）：7月第1週のケーキの販売個数を店舗Aと店舗Bで比較する

店舗名：月, 火, 水, 木, 金, 土, 日
店舗A：400, 520, 480, 390, 420, 490, 900
店舗B：520, 500, 530, 560, 490, 510, 530

店舗Bのほうが日ごとのばらつきは少ない。店舗Aは数多く売れる日・少ない日のばらつきが大きく、特に日曜の900個は外れ値としてプロットされている。

f:id:mkmkipy:20181004004644p:plain

箱ひげ図とは、データを、順位を基準に表現する方法。

データを小さい順（または大きい順）に並べ、「第1四分位」(＝25％tile)と「第3四分位」(=75%tile)で箱を書く
例）100人のテスト結果なら、100人の点数を順に並べ、25位の人の点数（＝「第1四分位」）と、75位の人の点数（＝「第3四分位」）で箱を書く（※）
箱の中の線は中央値（50%tile）、つまり50位の人の点数
箱の外側に、最大値までのひげを書く。最小値側も同様。
ただし、箱の高さ（「第1四分位」と「第3四分位」）の1.5倍を超える場合はひげを伸ばさずに外れ値としてプロットする
※正確には、第1四分位は25位と26位の間、第2四分位は50位と51位の間、第3四分位は75位と76位の間、となるが、ここでは直感的な数値で記載した。

データの代表値｜四分位点、パーセンタイル、分散、標準偏差

ヒストグラム

f:id:mkmkipy:20181004013414p:plain

標準偏差と正規分布

分散と標準偏差

平均値と各々の値を差を求める
上の1を2乗して合計して、値の個数で割る＝分散
分散の平方根 $\sqrt{分散}$ ＝標準偏差

例：100人女子がいて平均身長が 158cmとする

分散＝{(Aさん身長 - 158)の2乗 + (Bさん身長 - 158)の2乗 + ...} / 100
標準偏差＝ $\sqrt{分散}$

正規分布（ガウス分布）、で、何が嬉しいの？

正規分布とは、ヒストグラムを書くと、平均値を中心に一番山が高く、平均値を離れると左右対称に山が低くなっていくような分布。別名ガウス分布。

f:id:mkmkipy:20181002025257p:plain

世の中のいろんなデータが正規分布になっているといわれる。逆に、正規分布になってない例は、国民の年収。（年収がめちゃくちゃ高い人が平均値を押し上げているが、ほとんどの人は左の方(年収が低いところ)に多く固まっている）。

正規分布になっている事象なら、標準偏差と平均とそれを計算したデータの個数（＝サンプル数）から、母集団の平均値の範囲が求まる！というのが嬉しいの。

→ もうすこし正確にいうと、母集団の平均値は、95％の確率でこの中に含まれるはず、という範囲を計算することができる。*1

平均 - 1.96*標準偏差/√データ数＜母集団の平均値＜平均 ⁺ 1.96*標準偏差/√データ数

→厳密には、このような区間推定を行う（＝95％信頼区間を求めること）計算をする場合には、正規分布によく似た形のt分布で行うのが適切。

mkmkipy.hatenablog.com

今日の単語帳

正規分布：normal distribution
ガウス分布：Gaussian distribution
分散：variance
標準偏差：standard deviation
信頼区間：confidence interval

*1:95%信頼区間。ある確率（信頼係数）のもとで母数がその内に含まれると推定された区間のこと。