notebook 001

notebook 001

INPUTとOUTPUTの個人的な備忘録です。

緑本を読みはじめました③

4章5章はいったん飛ばして、今日は6章。


  • GLMは確率分布・リンク関数・線形予測子の組み合わせ指定で、様々なタイプのデータを表現できること
  • ポアソン分布:データが離散値、ゼロ以上の範囲、上限特になし、平均は分散にほぼ等しい
  • 二項分布:データが離散値、ゼロ以上で有限の範囲、分散は平均の関数 ※この章で出てくる、種子は全て8個、そのうち幾つが生存してるか。(値は0 -8 の間で上限が有限)
  • 正規分布:データが連続値、範囲が[-∞, +∞], 分散は平均とは無関係に決まる
  • ガンマ分布:データが連続値、範囲が[0, +∞], 分散は平均の関数
  • ロジスティック回帰:二項分布を使ったGLMの一つである統計モデル。確率分布に二項分布、リンク関数にロジットリンク関数を指定する。
  • ポワソン回帰:確率分布にポワソン分布、リンク関数に対数リンク関数を使う。(3章)
  • ロジット関数はロジスティック関数の逆関数。逆も然り。
  • オッズ:ロジットリンク関数で生存確率を定義すると、様々な要因と応答事象のオッズの解釈が簡単になる。
  • 交互作用項:例えば個体サイズと肥料をあげた効果の積の効果。線形予測子に交互作用項を入れることが可能。(モデルは複雑になる・その係数だけ見ても解釈が難しくなるが)

観測値のこねくり回し。こういうのはやめよう。

  • 割り算値の統計モデル:(観測データ)/ (観測データ) 例:1000打数300安打と、10打数3安打。
  • 観測値の変数変換:観測値の対数をとる、複数の観測値を一つの平均値に直してしまう
  • オフセット項を使うと、割り算をしなくてすむ。「単位面積当たり」「単位時間あたり」→観察面積、観察時間の対数logAをオフセット項にする