notebook 001

notebook 001

INPUTとOUTPUTの個人的な備忘録です。

機械学習と統計学を行ったり来たり

 

機械学習統計学の違いがよく分からない

一旦、今の理解で思うことを。

機械学習で出てくる「線形回帰」は、統計学では「単回帰分析/重回帰分析」として登場する。用語も同じの似てるのが多く出てくる。機械学習を始めることになり本を読んだり手を動かしているうちに、これはそもそも統計の知識がないとヤバいのではと思って統計学の本を読み始めた(昔やったはずというのはさておき・・・)。

 

統計はデータの「説明」に重きをおき、機械学習はデータの「予測」に重きをおく。

この言葉、何度か見かけて、わかった気になっていた。が、ある本にその続きが丁寧に書いてあり、なるほどと思った次第。

  • 統計では「検定」手法が充実しており、生じた現象を正確に説明することが求められている
  • 機械学習では、テストデータを分割して(モデル生成用とテスト用)、片方を使ってモデルを生成し、残りの片方を使ってテストをして、うまく予測できてるかどうかを検証する
    現象を説明するのではなく、データ使ってテストしてほらこのモデルで大丈夫でしょ(または大丈夫じゃないのでモデルを再作成する)

先に機械学習のツールを触り始めて、t検定やカイ二乗検定というものにほとんど表立って遭遇してこなかった(見つけられなかった)のはこういうことか。

今の私は、仕事の都合でやらないといけないのは機械学習のほうである。統計学の難しい内容や数式を完璧に理解することよりも、手を動かしながら概念が掴めればいいなあと思い始めた。ましてや数式そのものは覚えなくてもPythonなりRなりが計算してくれるし。

もちろん統計学の知識はあったほうがいいに決まってるし、覚えたことは忘れないようにしたいけれども。

余談:Statisticsの語源

今日は単語帳に書く単語もないかと思いつつWikipediaを見ていたら、

統計学 - Wikipedia

英語で統計または統計学を「statistics (スタティスティクス)」と言うが、語源はラテン語で「状態」を意味する「statisticum (スタティスティークム)」であり、この言葉がイタリア語で「国家」を意味するようになり、国家の人力、財力等といった国勢データを比較検討する学問を意味するようになった。

 

「状態」→「国家」→「国家に関連するデータにまつわる学問」かあ。なるほど。元々は国が国家が幸せになるための学問だったのかなとふと思ったり。

今日の単語帳

参考文献

文中のある本とはこの本のこと。

人工知能プログラミングのための数学がわかる本

人工知能プログラミングのための数学がわかる本