notebook 001

INPUTとOUTPUTの個人的な備忘録です。

緑本を読み始めました②

統計学

今日は第3章。

平均種子数を $λ_i$ 、説明変数（個体のサイズ）をとする。

ある個体 $i$ の平均種子数を $λ_i$ を、説明変数：種子のサイズ　 $x_i$ を使って定式化できたとする。

それを変形したら　 $\displaystyle log λ_i = β_1 + β_2 x_i$ 　になった。(exp -> log)

右辺：線形予測子
※ 仮に $β_1 + β_2 x_i +β_3 x_i^2$ でも線形予測子と呼ぶ。β1β2β3の線形結合だから。

左辺：リンク関数
※( $λ_i$ の関数 ) = (線形予測子) のとき、左辺がリンク関数。

線形予測子とリンク関数はGLMを特徴づける重要な概念（＋確率分布）

ポワソン回帰のGLMをするときは、たいてい対数リンク関数（＝この例のように、リンク関数として対数関数で表現されてるもの）を使う。
ロジスティック回帰のGLMにはロジットリンク関数を使う（6章）

最尤推定値の計算：複数のパラメータ $β_1$ $β_2$ を扱うので導出は大変そうだけど数値的な試行錯誤で計算する。Rなら fitで計算してくれる。
summary(fit) で表示される内容の説明
傾き、切片
標準誤差（Standard Error, SE)
z値 (z value) = 最尤推定値 ÷ SE = Wald統計量と呼ばれる
Wald信頼区間
自由度が２＝最尤推定したパラメータ数が2個
対数リンク関数のわかりやすさ：掛け算される効果
GLMのうち特殊な例（リンク関数なし）が、一般化（Generalized）ではない線形モデル。イコールLM、または一般線形モデル(general linear mode)と呼ぶ。名前よ。。
強引な変数変換わざを避けて、yの構造に合わせて適切な確率分布を選ぶのがこの本の統計モデリングの方針。