この回は,前回学習した母集団と標本に引き続き,標本で母集団を推定することを学習します.統計学を学ぶ上で最も重要な考え方です.
YouTube動画
7:25からが本記事の内容です.
チャンネルのフォローもお願いします!
スライド
16ページからが本記事の内容です
推定(Estimation)
何度も言いますが,推定は統計学を学ぶ上で最も重要な考え方です. 私達が本当に知りたいのは母集団の特徴です.例えば,母集団における,ある評価項目の平均値やその項目に男女差があるかなどが私達が本当に知りたいことになります.しかし,母集団のデータを全て取得するのは難しいため,母集団から一部のデータを無作為に抽出した標本で母集団を代用することを前回学習しました.
統計学の言葉を少し使って進めます.本当に知りたいのは母集団の統計量(平均値,標準偏差等)です.しかしそれは分からないから,母集団の代替となる標本から統計量を計算します.標本のデータは手元にあるため,標本の統計量は計算可能です.この標本の統計量で母集団の統計量を推定します.
- よく使う単語として母集団の平均値を母平均値,それに対応する標本の平均を標本平均と言います.同じように,母分散と標本分散などがあります.
母数(Parameter)と分母
少し話が逸れます.よく分数の分母の部分を母数と言う方がいます.しかしこれは統計学の言葉の使い方としては間違いです.分数の分母は,そのまま分母です.
母数とは,母集団の特徴を表す統計量のことを指します.例えば母平均も母数のひとつです. 文脈から考えるとこれらを混同することは無いとは思いますが,気になる人(母数警察)は気にしますので注意してください.
点推定(Point estimation)
推定は,点推定と区間推定に分けることができます.まず,点推定から学習します.
点推定とは,観測データ,つまり標本から母集団の未知の母数を性質の良い推定と考える,ある1つの値で推定する方法のことを言います.この点推定は,通常は目の前にある標本から算出されるため,1つの標本に対し1つの点推定値が得られます.
- いろいろな「性質の良い」点推定値があります
それでは標本は1つしかないでしょうか? 母集団から無作為に抽出するたびに,異なる標本ができます.そして,それらの標本に対し点推定値は計算されます.つまり,点推定値は1つに決まりません.標本により異なることがわかります.
簡単なシミュレーションをします.母平均値が170cm,母分散が5,サンプルサイズが150の母集団を作り,そこからサンプルサイズが30の標本を5回無作為抽出しました.下の図の通り,標本ごとにヒストグラムの形も異なりますし,点推定値(標本平均)も異なるのが分かります.
そうなると,この点推定値のばらつきを数値として表したいですよね.ここから区間推定につながっていきます.
区間推定(Interval estimation)
区間推定とは,点推定値のばらつきの程度を区間で表したものです.
では,何を使って点推定値のばらつきを表せばよいでしょうか? データのばらつきを表す統計量は標準偏差(分散)です.これを区間推定でも用います.
標準誤差
下の表は先程のシミュレーションで得られた5つの標本(Sampling 1,Sampling 2,..., Sampling 5)の平均値と標準偏差を示したものです.このように複数の標本があり,複数の標本平均値(点推定値)がある場合,この点推定値のばらつきを標準偏差として表すことができます.この標本平均値の標準偏差を標準誤差(SE: Standard error of the mean)と言います.
標準誤差は理解しづらい統計量の1つですが,このように考えると標準誤差は標本平均値の精度を表す統計量と考えることができます.
- 一般的に標本は1つしか観測することができません.そのため標準誤差はその標本の標本平均値,標本標準偏差,そしてサンプルサイズを使って計算します
データのばらつきを標本平均±標準偏差で表すように,区間推定も標本平均 標本平均の精度(ばらつき)→
の形で表します.
ただ,この表し方は間違ってはいませんが ,あまり多くは目にしません.それでは一般的に何を使っているのか? そう,95%信頼区間(95% CI: 95% Confidence Intarval)です.95%信頼区間は,標準誤差に約1.96を掛けただけの値です.
95%信頼区間
95%信頼区間が区間推定に利用できることが分かりました.ここで皆さん,95%信頼区間の正確な定義は分かりますでしょうか?
95%信頼区間母集団からk個の標本を無作為抽出し,k個の95%信頼区間を算出すると,95%の割合の95%信頼区間は真値を含む
これが正確な定義です.一回読んだだけでは意味わかりませんよね?*1
これを視覚的に捉えられる良いサイトはhttps://rpsychologist.com/d3/CI/です. ある母集団から任意のサンプルサイズの標本を無作為抽出し95%信頼区間を繰り返し算出,図示しています.右の図の一つ一つの青い点が標本平均値,横棒が95%信頼区間になります.黒い横棒は真値を含んでいますが,ときどき真値を含まない赤い棒が出現します.この確率が95%です.
ここから分かる通り,95%信頼区間の解釈として,「95%信頼区間の中に真値が存在する確率は95%である」は間違いであり,「95%信頼区間の中に真値が存在する確率は0か100%」と考えるのが正しいです.
ただ,いずれにせよ分かりづらいので,95%信頼区間を標準誤差の延長と考え,点推定値の精度と捉えるほうが良いと思います.
最近(2020/1時点),これらの内容をまとめた論文も出ました.
Ashley I Naimi, Brian W Whitcomb, Can Confidence Intervals Be Interpreted?, American Journal of Epidemiology, , kwaa004, https://doi.org/10.1093/aje/kwaa004
まとめ
- 標本の統計量で母集団の統計量を推定する
- 母数とは,母集団の特徴を表す統計量
- 点推定とは,母集団の未知の母数を1つの値で推定すること
- 母集団は1つ,標本は無限に作れる
- 区間推定はとは,点推定値のばらつきの程度を区間で表したもの
- 標準誤差は,標本平均値の精度を表したもの
- 95%信頼区間は標準誤差の延長線.点推定値の精度と考える
*1:何回読んでもわかりません