統計学は,目の前のデータのありのままの姿を伝える記述統計と目の前のデータから背後のデータの特徴を推定する推測統計の2つに大きく分けることができます.
この回から始まる医学統計学(基本)シリーズでは,推測統計に焦点を当てて勉強していきます.扱う例は医学が多いので医学統計学としていますが,このシリーズは基本的な内容ですので,心理学や経済学などの他の学問領域の方にも参考になると思います.
第一回は,推測統計の基礎になる母集団と標本の関係を扱います.(本当は動画と同じように推定まで扱いたかったのですが,長くなるためシンプルにしました.)
- 記述統計もこのシリーズのどこかで扱います
- 本シリーズは初学者向けのため,厳密さよりわかりやすさを優先しております
この記事の学習の方法
学習方法は人それぞれです.好きな方法・苦手な方法があります.このシリーズでは3つの媒体を用意しました.
- ブログ記事
ビデオを見るのよりも自分のペースで学習したい方向けです - YouTube動画
講義形式の方が頭に入る方向けです - スライド
ブログ記事・YouTube記事の補助教材としてください.YouTube動画で使っている資料のPDFです.ダウンロードして書き込んだりできると思います.
YouTube動画
医学統計学(基本)1:母集団と標本・推定
7:24までが本記事の内容です
スライド
母集団と標本(Population and Sample)
全数調査
方法はいくつかあると思います.まず思いつくのは,日本の医学部1年生の全員の身長を一人ひとりから聞き出したり,各大学の健康診断のデータを使わせてもらうように,問いに答えるためのデータを全て取得する方法です.この方法を全数調査と言います.全てのデータが多くなってくると非常に大変な方法です.
無作為抽出,母集団と標本
全てのデータが大きい時はどうしましょうか? 全てのデータと特徴が似るようにデータの一部を抽出してくるのはいかがでしょうか.
この時,全てのデータと抽出したデータを似せることが重要です.なぜなら,全てのデータの男女比が1:1であるのに対し,抽出するデータの男女比が8:2のように偏りのある比だったら,後者(8:2)の方が男性が多い分,おそらく身長の平均値は高くなりますよね.
このようにならないように,ランダムに一部のデータを抽出する方法を無作為抽出(Random sampling)と言います.
興味の対象である集団の全集合のことを母集団(Population),この母集団の部分集合を標本(Sampling)と言います.例を使えば,日本全国の医学部1年生の全員が母集団,無作為に抽出された日本全国の医学部1年生の集合が標本です.
無作為抽出が最適な抽出方法でありますが,ある大学の医学部1年生を標本にすることも考えることができます.ここで重要なのは代表性です.この標本が母集団の特徴を反映している(代表している)と考えられるならば,この標本を母集団の無作為抽出標本と同じように扱っても良いとします.ただし,みなしているだけであって無作為抽出ではないことには注意してください.
知りたいのがカテゴリカルデータ
先程の例は「身長の平均」でした.身長は連続尺度です.今回は「O型の割合」になりました.血液型の尺度はカテゴリカルになります.
[note title="NOTE"]データの尺度については,追って説明します.いまのところ連続尺度は身長や体温のような連続的な量.カテゴリカル尺度は性別のような区別できる量と捉えておいてください.[/note]
データの尺度が変わってもやることは変わりません.原則は無作為抽出.標本が母集団を代表していると仮定できるならば,ある大学といった標本にしても良いでしょう.
医療データの場合は?
今回は身長や血液型より,さらに医療っぽいデータに変わっただけです.原則は無作為抽出です.
標本が母集団を代表していると仮定できるならば,ある病院といった標本にしても良いでしょう.実際,単施設の研究はこの仮定を置いています.ただし,仮定を置いていることは十分認識してください.対象疾患によってはこの仮定に無理があることも考えられます.
まとめ
この記事では,母集団と標本について学んできました.無作為抽出の恩恵は,次回のテーマの推定に効いてきます.
次回内容の推定では,点推定や区間推定の考え方.標準誤差と95%信頼区間について学んでいきます.