notebook 001

INPUTとOUTPUTの個人的な備忘録です。

緑本を読みはじめました③

統計学

4章5章はいったん飛ばして、今日は6章。

GLMは確率分布・リンク関数・線形予測子の組み合わせ指定で、様々なタイプのデータを表現できること

ポアソン分布：データが離散値、ゼロ以上の範囲、上限特になし、平均は分散にほぼ等しい
二項分布：データが離散値、ゼロ以上で有限の範囲、分散は平均の関数 ※この章で出てくる、種子は全て８個、そのうち幾つが生存してるか。（値は0 -8 の間で上限が有限）
正規分布：データが連続値、範囲が[-∞, +∞], 分散は平均とは無関係に決まる
ガンマ分布：データが連続値、範囲が[0, +∞], 分散は平均の関数

ロジスティック回帰：二項分布を使ったGLMの一つである統計モデル。確率分布に二項分布、リンク関数にロジットリンク関数を指定する。
ポワソン回帰：確率分布にポワソン分布、リンク関数に対数リンク関数を使う。（３章）

ロジット関数はロジスティック関数の逆関数。逆も然り。

オッズ：ロジットリンク関数で生存確率を定義すると、様々な要因と応答事象のオッズの解釈が簡単になる。

交互作用項：例えば個体サイズと肥料をあげた効果の積の効果。線形予測子に交互作用項を入れることが可能。（モデルは複雑になる・その係数だけ見ても解釈が難しくなるが）

観測値のこねくり回し。こういうのはやめよう。

割り算値の統計モデル：（観測データ）/ （観測データ) 例：1000打数300安打と、10打数3安打。
観測値の変数変換：観測値の対数をとる、複数の観測値を一つの平均値に直してしまう
オフセット項を使うと、割り算をしなくてすむ。「単位面積当たり」「単位時間あたり」→観察面積、観察時間の対数logAをオフセット項にする