統計学習の始まり
統計学を勉強しようと思い立ってから、色々な参考書に手を出してきた。
とりあえず本屋さんに行き、初心者でもわかりそうな参考書を購入し挫折。
なんせ数学の知識がほとんどリセットされてしまっているので、解説が何を伝えたいのかさえわからなかった。
「統計学を学ぶには数学を疎かにしてはダメだ」という一文が目に留まり、「確かにそうだな」と思った。
そこで統計学で使用する数学を学ぶことができる参考書を購入。
途中まではなんとか食らいつくも、段々と難易度が上がるに連れて自力では難しくなってきた。
ネットで質問しながら食らいつくも、段々と苦痛になってきた。
・・・ドロップアウト。
自己嫌悪
この辺で自己嫌悪に陥る。
僕は小説が大好きで、文系を自負している。
「やっぱり僕には無理か・・・」なんてことが頭を過った。
しかしここで諦めてよいのか。
もう少し粘ってみたい。、数字を扱える人間になりたい。
次は更に遡り、数学の復習からやろうと決意。
小学校6年間の復習ができる参考書を購入。
さすがにこれはスムーズに完了。
算数ではあったが「やればできるじゃんか、自分」と自己肯定感が高まる(笑)。
続いて中学3年間の数学を復習できる参考書を購入。
これも無事にクリア。
中学レベルの数学ではあったが、更に自己肯定感が高まる。
ここで高校レベルに入るわけだが、この辺から怪しくなってくる。
というより飽きてきた。
高校レベルの数学は「数学ⅠA」「数学ⅠB」「数学Ⅱ」「数学Ⅲ」・・・
と量・難易度が一気に上がる。
計算問題を解きながら「いつになったら統計に入れるんや・・・」という気持ちが強くなってきた。
そしてドロップアウト。
やっぱり数学をずっとやっててもな・・・
と思い、「僕のような数学ゼロな人間でも統計に入門できる参考書はないものか」と都合の良いこと考え始める。
やっぱり勉強は楽しくなきゃ
やっぱり勉強は面白く感じなければ、続けることはできない 。
当たり前なことを身をもって再確認したので、楽しく統計を学ぶための計画を立てよう!と決意。
ネットで情報収集し、勉強計画を立てる。
最終的にこんな感じで落ち着いた。
これなら行けそうな感触があった。
それに加え、アプリを活用して勉強時間を可視化することにした。
そして今、無事に第一段階を終えることができた。
ということで、この本から学んだことをアウトプットしてみたいと思う。
データの種類
データにはいくつか種類がある。
・測れるデータ
身長・体重・気温・・・
要は数値で表せるデータ。
・測れないデータ
英検・天気・出身県
要は数値で表せないデータ。
度数分布表とヒストグラム
度数分布表というのは、例えばテストの点数を10ずつに区切って、どの範囲に何人の生徒がいるのかを整理した表。
各階級をパーセンテージのように表現したものを「相対度数」という。
これらをわかりやすくグラフで示したものを、ヒストグラムという。
中央値
平均点はよく聞く。
でも平均点は、例えば学校のテストでゼロが多いクラスと、そうでないクラスの平均点が同じでも、その意味するところは違う。
その辺を解釈するのに役立つ指標として、「中央値」が出てくる。
中央値は全てのデータを並べた時に真ん中にくる値のことをいう。
だからばらつきが多い場合、自分の立ち位置を知るには中央値のほうが良い、ということになる。
では「ばらつき」を知るにはどうすればよいのか。
そこで出てくるのが標準偏差。
標準偏差は最小値が0であり、大きいほど「ばらつきが大きい」と解釈できる。
つまり2クラスの点数から標準偏差を出し、それを比較することでどちらのクラスにばらつきが多いのががわかるというわけだ。
その計算式が
√(個々のデータ-平均)^2を全て足したもの/データの個数
となる。
まとめ
ちょっと長くなってきたので、この辺で一旦終わろう(笑)。
僕の統計学習プロセスを振り返りつつ、少しアウトプットしてみた。
数学は思い切って省く道を選んだわけだけど、数学はやっぱり必要だと思う。
√や平方根の知識は学びなおして良かったと思うし、これから更に学んでいくと必要不可欠になってくると思う。
僕が統計を学ぶ理由は2つある。
・統計が用いられている文献を、完璧でなくてもおおよそ理解できること
・簡単なデータの分析ができること(できればRを使えるようになりたい)
別にデータサイエンティストを目指すわけではない。
そう思うと統計を学ぶハードルが下がった気がする。
まだ学び始めて間もないけど、論文を読んでいて統計用語が出てきてもアレルギー反応みたいなものは解消されてきた。
日常でもデータを色々な角度から解釈してみようかと思えるようになってきた。
それだけでも統計を学び始めた意味があるってものだ。
このまま統計を楽しく学んでいきたい。