データを読む
統計学のうち「平均と分散」「正規分布とべき分布」「相関」の3つが正しく捉えられるだけで、世の中の見え方は、かなり変わってくる。
①平均と分散(標準偏差)
平均を扱う際に注意しなければならないのは、データの特徴を表わす上で、平均値を使うのが適切かどうかということ。平均を考える際、あまりに少ないサンプルをとってもあまり意味がない。何らかの質の異なるデータが混ざっている場合も要注意である。
標準偏差は「データの散らばり具合を表すもの」である。散らばり具合は、「平均からどれだけ離れているか」で測る事ができる。標準偏差は、いろいろなところで必要になる概念である。例えば、2人の受験生がいて、一方は「コツコツ型」で平均は65点、標準偏差は8点。もう一方は「一発屋」で平均は55点だが、標準偏差が25点あるとする。本番の合格点が60点だし、標準偏差を考慮すると、コツコツ型が58点で一発屋が80点という事になるかもしれない。
②正規分布とべき分布
独立に変動する値が多数足し合わされると、正規分布に近い分布になる。正規分布が重要なのは、独立に変動する値の足し合わせが、様々なところに現れるからである。正規分布は、平均と標準偏差で形が決まる分布である。山の一番高いところに対応する横軸の値が平均、山の広がりが標準偏差にあたる。
べき分布とは「極端な差が出やすい性質を持つ分布」の事である。庶民の所得は、差があるといっても数百万程度だが、べき分布の場合には、1億円の人がいるかと思えば10億円の人もいるという具合である。典型的なべき分布にしたがうデータは、極端な値を含んでいる可能性が高いので、注意が必要である。
べき分布と正規分布の最大の違いは、平均や分散が存在しない場合がある事である。つまり、定義に基づいて平均や分散を計算すると、値が無限大になったり、1つに定まらなくなってしまう事が起きる。株価のように、時折ものすごく大きく変動するものに対しては、平均や分散が存在しない事がある。
③相関
「相関」とは、2つの変量の間に、一方が増えた時、他方が減る、または増える傾向がある事をいう。相関係数は、マイナス1から1の間の値を取る。一般的に、相関係数がマイナス1または1に近い時は、データの間には直線的な関係がある。ここで留意しなければならないのは、「相関」というのは、あくまで「対応関係」を示したものであって「因果関係」ではない事である。
相関関係がどの程度なら相関ありとみなすかは、サンプルサイズによる。サンプルサイズが大きくなればなるほど、偶然に相関が高くなる確率は減るからである。相関係数を計算する前には、まずは散布図を見て、データの性質をよく見極めておく必要がある。