notebook 001

notebook 001

INPUTとOUTPUTの個人的な備忘録です。

データを要約する(サマる)こと。分散・標準偏差・正規分布。

 

データを要約する(サマる)

離散値(整数で表現できる数字)

  • 例:販売個数、人数
  • データを要約する → 中央値
  • ばらつきを表現する → 四分位範囲、外れ値
  • 可視化 → 箱ひげ図(boxplot)

連続量(小数点込みで表現する数字)

可視化については、離散値であっても標準偏差正規分布を使う場合もあるし(例:テストの点数)、連続量であっても箱ひげ図で書いても、状況に応じてよいのではと。 
ただ確率を求める場合は離散値と連続量では式の解釈が異なってくるので注意。

データをサマって可視化する

箱ひげ図(boxplot)

例):7月第1週のケーキの販売個数を店舗Aと店舗Bで比較する

  • 店舗名:月, 火, 水, 木, 金, 土, 日
  • 店舗A:400, 520, 480, 390, 420, 490, 900 
  • 店舗B:520, 500, 530, 560, 490, 510, 530

店舗Bのほうが日ごとのばらつきは少ない。店舗Aは数多く売れる日・少ない日のばらつきが大きく、特に日曜の900個は外れ値としてプロットされている。

f:id:mkmkipy:20181004004644p:plain

 

箱ひげ図とは、データを、順位を基準に表現する方法。

  • データを小さい順(または大きい順)に並べ、「第1四分位」(=25%tile)と「第3四分位」(=75%tile)で箱を書く
  • 例)100人のテスト結果なら、100人の点数を順に並べ、25位の人の点数(=「第1四分位」)と、75位の人の点数(=「第3四分位」)で箱を書く(※)
  • 箱の中の線は中央値(50%tile)、つまり50位の人の点数
  • 箱の外側に、最大値までのひげを書く。最小値側も同様。
  • ただし、箱の高さ(「第1四分位」と「第3四分位」)の1.5倍を超える場合はひげを伸ばさずに外れ値としてプロットする
  • ※正確には、第1四分位は25位と26位の間、第2四分位は50位と51位の間、第3四分位は75位と76位の間、となるが、ここでは直感的な数値で記載した。

データの代表値|四分位点、パーセンタイル、分散、標準偏差

 

ヒストグラム

f:id:mkmkipy:20181004013414p:plain

 

標準偏差正規分布

分散と標準偏差

  1. 平均値と各々の値を差を求める
  2. 上の1を2乗して合計して、値の個数で割る =分散
  3. 分散の平方根  \sqrt{分散}  =標準偏差

例:100人女子がいて平均身長が 158cmとする

  • 分散={(Aさん身長 - 158)の2乗 + (Bさん身長 - 158)の2乗 + ...}  / 100
  • 標準偏差 \sqrt{分散}

正規分布ガウス分布)、で、何が嬉しいの?

正規分布とは、ヒストグラムを書くと、平均値を中心に一番山が高く、平均値を離れると左右対称に山が低くなっていくような分布。別名ガウス分布

f:id:mkmkipy:20181002025257p:plain

世の中のいろんなデータが正規分布になっているといわれる。逆に、正規分布になってない例は、国民の年収。(年収がめちゃくちゃ高い人が平均値を押し上げているが、ほとんどの人は左の方(年収が低いところ)に多く固まっている)。

正規分布になっている事象なら標準偏差平均とそれを計算したデータの個数(=サンプル数)から、母集団の平均値の範囲が求まる!というのが嬉しいの

→ もうすこし正確にいうと、母集団の平均値は、95%の確率でこの中に含まれるはず、という範囲を計算することができる*1

平均 - 1.96*標準偏差/√データ数 < 母集団の平均値 < 平均 ⁺ 1.96*標準偏差/√データ数

→厳密には、このような区間推定を行う(=95%信頼区間を求めること)計算をする場合には、正規分布によく似た形のt分布で行うのが適切。

mkmkipy.hatenablog.com

今日の単語帳

 

*1:95%信頼区間。ある確率(信頼係数)のもとで母数がその内に含まれると推定された区間のこと。