緑本を読みはじめました③
4章5章はいったん飛ばして、今日は6章。
- GLMは確率分布・リンク関数・線形予測子の組み合わせ指定で、様々なタイプのデータを表現できること
- ポアソン分布:データが離散値、ゼロ以上の範囲、上限特になし、平均は分散にほぼ等しい
- 二項分布:データが離散値、ゼロ以上で有限の範囲、分散は平均の関数 ※この章で出てくる、種子は全て8個、そのうち幾つが生存してるか。(値は0 -8 の間で上限が有限)
- 正規分布:データが連続値、範囲が[-∞, +∞], 分散は平均とは無関係に決まる
- ガンマ分布:データが連続値、範囲が[0, +∞], 分散は平均の関数
- ロジスティック回帰:二項分布を使ったGLMの一つである統計モデル。確率分布に二項分布、リンク関数にロジットリンク関数を指定する。
- ポワソン回帰:確率分布にポワソン分布、リンク関数に対数リンク関数を使う。(3章)
- ロジット関数はロジスティック関数の逆関数。逆も然り。
- オッズ:ロジットリンク関数で生存確率を定義すると、様々な要因と応答事象のオッズの解釈が簡単になる。
- 交互作用項:例えば個体サイズと肥料をあげた効果の積の効果。線形予測子に交互作用項を入れることが可能。(モデルは複雑になる・その係数だけ見ても解釈が難しくなるが)
観測値のこねくり回し。こういうのはやめよう。
- 割り算値の統計モデル:(観測データ)/ (観測データ) 例:1000打数300安打と、10打数3安打。
- 観測値の変数変換:観測値の対数をとる、複数の観測値を一つの平均値に直してしまう
- オフセット項を使うと、割り算をしなくてすむ。「単位面積当たり」「単位時間あたり」→観察面積、観察時間の対数logAをオフセット項にする