Open Box with STAT

基本的な統計学と疫学的手法,それらの文献等,R等の統計ソフトの使い方をブログ記事やYoutubeを用いて解説します.

データサイエンスの分類

データサイエンスのタスクを分類・整理する

因果推論を軸にして,データサイエンスのこれまでとこれからを考えていく論文です.詳しくは論文を読んでいただきたいですし,私のまとめで間違っていることがあれば指摘して欲しいです.

Miguel A. Hernán, John Hsu & Brian Healy (2019) A Second Chance to Get Causal Inference Right: A Classification of Data Science Tasks, CHANCE, 32:1, 42-49, DOI: 10.1080/09332480.2019.1579578 A Second Chance to Get Causal Inference Right: A Classification of Data Science Tasks: CHANCE: Vol 32, No 1

なお,この論文は,はじめに・方法・結果・考察という構成では書かれておりません.

この論文で学ぶこと

  • データサイエンスのタスクの分類
  • それぞれの分類でできること
  • 因果推論の重要性
  • 専門領域の知識の必要性

目次

因果推論の歴史

20世紀はじめの統計家は次のようなことを言っていました.

  • ランダム化比較試験のような実験研究から得られたデータを使用する場合には,因果関係を推論するために統計学を適用できる
  • 非実験的な研究(観察研究:observational study)から得られたデータを使用する場合には,因果関係を推論するために統計学を適用できない

因果関係を推論することを因果推論と言います.ここらへんはKRSKさんのブログをご参考にしてください.とてもわかりやすくまとまっていて,とても勉強になります.

www.krsk-phs.com

しかし,多くの科学者は観察データを用いて,治療が有害事象の発現に影響を与えるかであったり,ライフスタイルの活性の程度が健康に影響を与えるかであったり,教育政策が社会に与える影響であったりを統計学を使って解析してきました.ただ彼ら彼女らの因果的な疑問と受けてきた統計学のトレーニングとがマッチしていないため,解釈についていろいろな間違いが起こっていました.

こうした中,やはり観察データを用いて因果推論したいというモチベーションのもと,いろいろな領域の研究者は因果推論の定式化に関する研究を続けていました.そして21世紀初頭に定量的因果推論の統一理論が生まれました!

この論文では因果推論を軸に,データサイエンスのあり方を考察していきます.

データサイエンスのタスクの分類

データサイエンスのタスクは3つに分類できます.

  • Description(記述)
  • Prediction(予測)
  • Counterfactual prediction(反事実の予測)

それぞれの分類がデータに対し一般的におこなうことを下の表にまとめました.

分類 おこなうこと
Description ある特徴量(年齢,性別,バイオマーカーなどの観察対象の特徴)
Prediction ある入力(複数でも良い)を,ある出力にひもづける
Counterfactual prediction 現実のある事実(ある特徴を持つなど)がもし違っていた時(これを反事実という),どうなるか予測する

ここで反事実の予測は因果推論を必要とします.反事実の考え方もKRSKさんのブログがおすすめです.

www.krsk-phs.com

さらに詳しく見ていきましょう.

Description(記述)

f:id:shuntaro-web:20190528105431j:plain

Descriptionと聞くと要約統計を真っ先に考えつきましたが,この論文ではクラスター分析などの教師なし学習も例として挙げられていました.

Prediction(予測)

f:id:shuntaro-web:20190528105609j:plain

学術領域にもよりますが,Input(入力)は説明変数,独立変数,予測変数と言います.Output(出力)は目的変数,従属変数と言います.ここで,説明変数と目的変数,独立変数と従属変数はそれぞれ対になる言葉です. また,世間でよく使われるAI(人工知能)は予測に焦点を当てていると考えています.

Counterfactual prediction(反事実の予測)

f:id:shuntaro-web:20190528105810j:plain

上の図でのスタチン(の投与の有無)を原因,脳卒中(の発症の有無)を結果とし,原因が結果に与える影響の程度(効果)を定量化するのが因果推論です.ただし,原因にも結果にも影響を与える変数(交絡因子と言います)を調整しないと,調整しないで得られた結果は本当の効果からずれてしまいます.

つまり,変数間の関連を整理し,必要な変数で統計解析をおこなう必要があります.この変数間の関連を整理するのは,その領域における専門家の知識が重要です.さらに統計解析手法もあるアルゴリズムを使えば結果が得られるといった単純なものではありません.特別な訓練が必要です*1


因果関係は,上記のように専門家の知識を用い,適切な統計解析手法を選択すれば,観察データでも示すことはできます(弱く言うなら,「ある程度」示すことはできます).実は,変数間の関連がわからなくても,因果関係を示す方法があります.ランダム化比較試験です.

ある集団に対し,

  • 因果関係を示したい複数の要因を個人に対しランダムに割付ける
  • 割付けた要因を試行する期間(観察期間と言います)は誰一人として研究から脱落しない
  • 全ての対象者が割り付けられた要因を完璧に遂行できる

これらの条件を満たせば,変数間の関連が分からなくても,つまり交絡因子の調整もしなくても,因果関係を定量化することができます.

予測と因果推論の混乱

これまで示してきた3つの分類(記述・予測・反事実の予測)の境界は実はあいまいです.全ての研究がどれかに明確に当てはまるわけではないと思いますが,この3つの分類に沿って,研究を整理していくことは研究デザインの立案・収集するデータの選択・統計解析手法を考える上でとても役に立ちます.

いろいろな研究者と話す機会がありますが,自分の示したいことが,予測なのか因果関係なのか決まっていない(分かっていない)ケースがしばしばあります.最近は,データ解析についてのコンサルティングで研究者の研究目的を一通り伺った後に,「今回の研究で示したいのは,予測ですか? 因果関係ですか?」という質問をしています.そうすることで,その後のディスカッションの方向性が整理されるからです.おすすめです.

またこの論文では回帰(regression)が混乱を助長させているとありました.回帰は予測にも使えますが,因果的な知識と組み合わせると因果推論にも使えるからです.3つの分類を意識せず,回帰という目的を達成するための共通する手段を先に選択したせいで,自分が何をやりたいのか混乱する研究者は確かに多いなと感じました.特に医学研究では安易に回帰を用いる風潮があるので,自分も含めて気をつけたいです.

データサイエンティストの知識と専門家の知識が必要なフェーズ

3つの分類はどれもデータサイエンティストの知識が必要です.しかしデータサイエンティストのみの集団(または個人)で研究が遂行できるわけではありません.特に「予測」と「反事実の予測」をおこなうためにはその領域の専門家の知識が必要です.

データサイエンティストの知識と専門家の知識が必要なフェーズを図にまとめました.多くのフェーズがデータサイエンティストのみでできるフェーズではなく,専門家と共同して検討する必要があります.

f:id:shuntaro-web:20190527214408j:plain

注目したいフェーズは変数間の関係の整理です. 「予測」が目的の場合,サンプルサイズに対応した入力変数の数や多重共線性などの統計学的な問題に対する注意は必要ですが,基本的に変数間の関係は整理せずに,統計解析をおこなっても問題はないです.極端なことを言えば,「右手親指の爪の横幅」が脳卒中の発症を予測するならば,それでも良いと思います(もちろんオーバーフィッテイングに対する注意は必要です.).つまり,変数間の関係を整理する必要がないので,専門家の知識も不要です.

一方で,「反事実の予測」が目的の場合は,変数間の関係の整理が非常に重要です.専門家の知識のもと,変数間の関係を整理せず,適当に解析してしまうと,原因と結果の関係について間違った効果を推定してしまいます*2


また,「反事実の予測」はDecision-making(意思決定)にモチベーションがあることも重要なポイントです.例えば,ある疾患の5年後の死亡を減少させる要因を調べていて,「入院歴」が統計学的に関連のある要因だったとします.この時,「入院歴」には意味がありますか? 疫学の目的は,死亡率を減少させる要因を同定することによって,その要因に対し介入をおこなうという政策を提言する(意思決定する)ことです.この観点で考えると,「入院歴」には意味がありません.なぜなら「入院歴」は介入の余地はないからです(5年後の死亡率が低くなるからって,目の前の入院が必要な患者さんを入院させないという選択はとれませんよね.).

データサイエンティストの仕事

データサイエンティストのタスクは,

  • Description(記述)
  • Prediction(予測)
  • Counterfactual prediction(反事実の予測)

に分けることができ,それぞれができることを考えてきました.また「反事実の予測」をするためには,特に専門家の知識が必要ということが分かりました.現在,AI(人工知能)という言葉が溢れかえり,さまざまな領域でこの技術を応用しようとしています.それ自体は良い取り組みかとは思うのですが,AIは予測することが得意で,反事実の予測をすることは得意ではないということは,データサイエンティストはもちろんデータサイエンスを利用して事業を始めたり,意思決定をする方は改めて認識するべきだと思います*3

「予測」するときに用いている考え方や手法を,そのまま「反事実の予測」に当てはめると間違った結果を導く可能性があります.さらにその間違った解析結果が政策の意思決定に影響する可能性もあるため,特に注意すべきです.

これからのデータサイエンティストは,自分達だけで課題(目的・仮説)に対する回答(結果)を出すのはますます難しくなると思います.専門家と協力して,課題に合わせた手段を選択していく過程が重要だと考えました.

この論文で学んだこと

  • データサイエンスは,Description(記述)・Prediction(予測)・Counterfactual prediction(反事実予測)の3つに分類できる
  • どの分類でも専門家の知識は必要であり,因果推論では特に重要である
  • decision-making(意思決定)は,予測ではなく,因果推論でおこなう
  • (自分の足りないところ)

この論文では,特に健康にかかわる領域において「間違ったデータ解析をしないためにどのような教育が必要なのか?」という問いに答えるために,Harvard Medical SchoolにおけるClinical Data Scienceのコアカリキュラムの紹介がありました.とても参考になるので,調べてまとめてみようと考えています*4

*1:私自身も足りないため勉強・研究する必要があると感じています.

*2:論文中で例が紹介されていましたが,私がまだ理解しきれていないため,追ってご紹介します

*3:論文中では,ゲームのような閉じた環境のように,全ての情報を取得できるならば,「予測」と「反事実の予測」の区別は必要ないとありました.

*4:中の人からご紹介いただくのが最も参考になりますが