2010年4月30日金曜日

What's "Ecological Fallacy"?

28日水曜日、私たち修士1年が初めて参加した疫学ゼミで、"Ecological Fallacy"という言葉が取り上げられた。

この言葉は、ゼミの教科書の"Foundations of Epidemiology"の最初のチャプターに書かれていて、文章で説明もされていたのだけれど、同期3人で自主ゼミをして読み下した時もこのフレーズだけは何の事だかわからず、訳せず苦労した。

ありがたいことにO先生がゼミの後、Ecological Fallacyの例を説明したデータをエクセルで私たちに送ってくださったので、エクセルをガチャガチャいじりながら先生からのQuestionについて考えてみた。(←本当は同期3人とも研究ログを作れと言われていたのにすっかり忘れていた、という体たらく。今日先生に注意されて初めて手をつけ、最初のログのネタに使わせていただいたのだけれど…(;-_-))



つまりこういうことだろうか?
統計処理されたデータ(この場合は平均値)を単純に比較してしまうと、その背後にある、分布の仕方や個々のケースの特徴がマスクされてしまうことがある。今回、先生が与えて下さった例で考えよう。単純にRegion AとRegion BのBMIと収縮期血圧の平均値を比べると、BMIの平均値がRegion Bより大きいRegion Aではやはり、Region Bよりも収縮期血圧の平均値も高い。じゃぁ、BMIと収縮期血圧には正の相関がある??
ところが、散布図を作ってRegion A, Region Bそれぞれの相関係数を出してみると、Region AではBMIと収縮期血圧の相関係数が-0.9627874(←有効数字なんて完璧に無視です、ごめんなさい;;)とかなり強い負の相関がみられる。と。しかしRegion Bでは逆に相関係数0.90109713とかなり強い正の相関がみられる。これでは単純にBMIと収縮期血圧の間には正の相関があるとは言えないかもしれない…Σ(;°□°)




Region Aという集団とRegion Bという集団では住んでいる人たちの特徴が大きく違うかもしれません(人種とか、生活習慣とか…etc.)。そしてRegion A,Region Bという集団の中でもどこからデータを取ってくるかでデータの持つ特徴は変わります。そうしたらRegion A とRegion Bでデータの分布の仕方が変わることも十分考えうることだと思います。個人レベルで見えてくる特徴が集団全体のレベルで見たときに見えなくなることがあること、そしてそれに気がつかず漫然と統計処理されたデータを比較して矛盾した結論を導いてしまうこと、これが"Ecological Fallacy"…?なのかな?と思いました。

「他人のデータは信用しない、生データは大切に!データは点で見ず、線で見よ!」っていうのが私の結論でございます。


Reference:http://www.aokilab.arch.titech.ac.jp/lab/optim/pdf/25.pdf
http://www.med.osaka-u.ac.jp/pub/kid/clinicaljournalclub13.html
http://webcache.googleusercontent.com/search?q=cache:Flh9J8QRScUJ:kadaiigakuka20.xxxxxxxx.jp/ekigaku/atyukan2004.doc+%E3%82%A8%E3%82%B3%E3%83%AD%E3%82%B8%E3%82%AB%E3%83%AB%E3%83%95%E3%82%A1%E3%83%A9%E3%82%B7%E3%83%BC+%E3%81%A8%E3%81%AF&cd=4&hl=ja&ct=clnk&gl=jp

1 件のコメント:

  1.  今日はとても暑いです。雨が降りそうです。大変です。7限きついです。でも今週も今日で終わりです。がんばりましょう。

    返信削除