Open Box with STAT

基本的な統計学と疫学的手法,それらの文献等,R等の統計ソフトの使い方をブログ記事やYoutubeを用いて解説します.

Clinical Question整理のためのRoadmap

先日Twitterでほんのりとバズった(気がする)ことについてお話しようと思います.

臨床研究のClinical Question (以下,CQ)は,研究を始める前に必ず整理しないといけません.

そうしないと,

  • どんな人が対象なのか?
  • どんなデータが必要なのか?
  • どんな解析が必要なのか?

とどこかで悩み,さらには,自分が何を知りたいのかさえ分からなくなってしまいます.

私は統計家として多くの研究者の相談を受けてきましたが,「統計解析方法」の説明よりも,「CQの整理」をお手伝いすることの方が多いです. しかも解析段階だったり,論文執筆段階だったり,リバイス対応中だったり,研究をまとめる段階であるため,ストーリーをどう組むか頭を悩ますことが多いです.

今回は,どのようにCQを整理するのか説明します.

PECO or PICO に落としこまないといけないのか?

臨床研究をはじめる方に向けた書籍では,PECO or PICOでCQを整理する,から始めているものが多いと思います.

私も1年ほど前まではそう考えていました.しかし研究者から相談を受ける中で,どうしても落とし込めないCQがあることに気づきました.

そんな中出会ったのは,次の論文です*1

Hernán, M. A., Hsu, J. and Healy, B. (2019) “A Second Chance to Get Causal Inference Right: A Classification of Data Science Tasks,” Chance . Taylor & Francis, 32(1), pp. 42–49.

https://www.tandfonline.com/doi/full/10.1080/09332480.2019.1579578

この論文では,データサイエンスでできることを3つに分類しています.

  1. 記述(Description)
  2. 予測(Prediction)
  3. 反事実の予測(Counterfactual prediction)

反事実の予測は,因果推論(Causal inference)と読み替えても不都合はなさそうなので,この記事では因果推論を使います.

まずはこの3つの分類にCQを落とし込み,次に構造化することを提案します.

f:id:shuntaro-web:20200801123319j:plain

記述(Description)

これは記述的疫学調査で使われるCQだと思います.

興味のある集団(ある疾患など)の興味のある属性(年齢,性別など)を要約統計量(平均,標準偏差,中央値,四分位範囲など)や図でまとめることを指します. シンプルですが,重要な研究です.

このCQの場合は,PV(ぴーぶい)で構造化すれば良いです*2

  • P; Population(集団): 誰を対象にするのか?
  • V; Variable(変数) : どの属性を要約するのか?

予測(Prediction)

これはアウトカムの予測に興味があるときに使われるCQです.

アウトカムに関連する要因を探索するためにも多く使われています.アウトカムを予測する変数として,risk factor,prognostic factorやpredictorと言われています.

シンプルな解析をした場合,次の表を作ることが多いです.この表では,どの変数がアウトカムと強く関連しているかな?といった解釈も表しています. f:id:shuntaro-web:20200801131020p:plain

基本的に予測を目的にする場合は,その精度を上げることが重要です*3.なので解釈性は考えない,解釈性を考えるのは因果推論でしょ,という意見もあります*4.(この観点から考えると,上の表は筋が悪そうに見えますが...)

このCQの場合は,PPO(ぴーぴーおー)で構造化すれば良いです*5

  • P; Population(集団): 誰を対象にするのか?
  • P; Predictor(予測する変数) : アウトカムを予測する変数は何か?
  • O; Outcome(アウトカム): アウトカムは何か?

因果推論(Causal Inference)

これは,興味のある曝露・介入がアウトカムに影響するか,興味あるときに使われるCQです.

興味のある曝露・介入を変化させることによってアウトカムが変化するか,考えます.

予測で出てきた解釈性とも結びつきが強いです.

因果推論の場合は,次のような表を作ります.注目すべきは,興味のある処置しか表に載せないことです. 交絡因子を興味のある処置と同じように解釈できないため,これらはまとめて脚注に書きます. f:id:shuntaro-web:20200801131246p:plain

予測で示した表のように交絡因子の推定値も表に示した場合,Table 2 fallacyという問題が起こります. この考え方は,研究者に十分に浸透しているとは言えません.因果推論をしていても査読者等から指摘されることは多いと思います.下の文献を使いながらうまく対処してください.

Westreich, D. and Greenland, S. (2013) “The table 2 fallacy: presenting and interpreting confounder and modifier coefficients,” American journal of epidemiology, 177(4), pp. 292–298.

https://academic.oup.com/aje/article/177/4/292/147738

このCQの場合は,観察研究のときはPECO,実験研究のときはPICOで構造化すれば良いです.

観察研究
  • P; Population(集団): 誰を対象にするのか?
  • E; Exposure(曝露) : 興味のある曝露は何か?
  • C; Control(対照): 曝露の効果を評価するための対照は何か?
  • O; Outcome(アウトカム): アウトカムは何か?
実験研究(RCT)
  • P; Population(集団): 誰を対象にするのか?
  • I; Intervention(介入) : 興味のある介入は何か?
  • C; Control(対照): 介入の効果を評価するための対照は何か?
  • O; Outcome(アウトカム): アウトカムは何か?

まとめ

この記事では,

  • PECO or PICOで整理できないCQがある
  • 記述・予測・因果推論でCQを分類する
  • その後,構造化する

ことを説明しました.多くの医学研究者に届くと嬉しいです.

*1:この文献についての記事も1年前に書きました openbox-stat.net

*2:自作です.流行らないかなー

*3:もちろんオーバーフィッティングには注意です

*4:私自身もこの意見には賛成で注意する必要はあると思っていますが,実際この手の研究は多く,どうしたもんかなと悩んでいるところです.上記ツイートでも,Taka氏IEN氏Yoshio氏とディスカッションしています.

*5:自作です.流行らないかなー