Googleがインフルエンザの発生を予測できなかったら?
ビッグデータ × ヘルスケア関連のニュースも、ちょくちょく紹介していこうと思います。
今回の記事は「Googleがインフルエンザの発生を予測できなかったら?」
What If Google Can’t Predict Flu Outbreaks?
Googleは、2008年以降人々のgoogleでの検索履歴からインフルエンザ流行を追跡することを試みてきた(Google Flu Trends(略してGFT))が、正確な発生予測には失敗し続けてきた。
原因としては以下が挙げられている
- 研究者のビッグデータへの妄信:ビッグデータが万能薬で普遍的な真理を導いてくれると思ってしまうこと
- Google のアルゴリズムや Twitter のサンプリングから得られたデータは正しいものだと信じてしまう。
- 収集する検索からのデータそのものがインフルエンザ発生予測のコンテキストを欠いている
- 例えば、人々が「インフルエンザ」と入力するとき、必ずしもインフルエンザを発症しているとは限らない。単に学問的関心があって検索しているかもしれないが、googleの検索クエリではこれらを判別できない。
- googleの「suggested terms」の影響
- google検索では、例えば「鼻水と熱」で検索した時に、「鼻水と熱」に関連する検索として「インフルエンザ」が表示される仕組みになっている。そのことにより、インフルエンザではない人が、「flu」をクリックすることになり、偽陽性のサンプルデータが増加する。
2番目の問題は、「検索エンジンの限界」を示唆している気がするが、googleならこの問題も乗り越えそうな気がしなくもない。将来的には、人々が検索する時に頭の中では何を考えているか?までも読み取ることが出来るシステムを開発するかもしれない。どうやってやるのかは想像もつかないが。。。
一方で、以下の記事は対称的で、「ツイッターによりリアルタイムでHIVの発生が予測できる」というもの
Twitter Can Detect HIV Outbreaks in Real-Time
UCLAの研究者らが、2012年5月26日〜12月9日の間に5億5000万ものツイートを集めて解析し、「sex」や「ハイになる」といったツイートのフレーズと実際のHIV発症地域をプロットし、アルゴリズムを作成した。
ツイッターのデータ解析が、人々の健康に関する行動の予測、ならびに、HIVリスクを高める行動や麻薬の使用を監視するのに有用であることを示している。
言葉から疫病の発生を予測できるのはすごい!
Googleが、データ分析と活用について学ぶオンライン講座(MOOC)「Making Sense of Data」を開催するみたいです。(記事はこちらより→「データ分析を学ぼう」、Googleがオンライン講座を開講)
開講は2014年3月18日から4月4日までで、誰でも登録できる(しかもプログラミングや統計の知識は不要!)ので、興味のある方は是非登録してみてください!
ではでは!そろそろ避けてきた引っ越しの荷造りをしますかねぇ(*´Д`)
-
前の記事
Twitter分析_Vol.1 2014.03.02
-
次の記事
Googleオンライン講座~データ分析と活用~ 2014.03.31