2014年1月6日月曜日

ビッグデータについて考える

ビッグデータという言葉が流行っている。そこでビッグデータをWikipediaで検索するとそのページは実に難解な解説で埋め尽くされている。これが理解できるヒトはいるのでしょうか?小生にはまったく意味不明でした。翻訳なのかしらん?誰か書き直してくれれば良いのにと思います。

さてビッグデータであるが、流行っているといわれると、どこで?と言いたくなるが、じつはゲノム情報を追いかけている小生などは、ゲノム解析こそビッグデータ解析そのものであろうと思われるのである。ゲノム解析の実例以外の一般例として気象解析や車のシミュレーションは想像の範囲内であるが、その他がどのようなものかわからない。

小生この一年、ゲノム解析におけるエリック・ランダーの総説を紹介しているが、実は彼の総説の最終章では今後大事なこととして4つの項目があげてある。その最後が情報の共有であり、統合であり、世界規模のビッグデータ解析ということになるのだろうと小生は理解した。

さてビッグデータ なんてどこから生まれた概念なのだろう?その源流を探るに相応しい文章を見つけたので引用する。

[特集] もう一度「ビッグデータ」を考える

みずほ情報総研のHPから引用だが、実はこの説明は楽天技術研究所 所長の森 正弥さんの引用のようである。孫引きなのね。

・・・・・・・・そもそもビッグデータとは、Information Explosion(情報の爆発的増大)に関する研究などのコンセプトから派生したもので、膨大なデータがあれば分析精度が跳ね上がるという現象が判明したことから始まったものだという。「2006年にアメリカ国立標準技術研究所(NIST)後援で開催された自動翻訳のアルゴリズムを競うコンテストで起こった事件に起因する」(森氏)。このコンテストは、英文を次々と別の言語へ自動翻訳し、最後にもう一度英語に翻訳して、最初と最後の英文がどの程度異 なっているかによりアルゴリズムの精度を測るもので、「そこに初めてGoogleが参戦し圧倒的勝利を収めたのだが、彼らは自然言語処理技術を使用せず、 Web上にあるデータから言葉と言葉の関連性の距離を計算し、距離の近いものを当てはめて翻訳していくという手法をとった。これはつまり、理論がなくともデータが大量にあれば、精度の高い分析ができてしまうという世界がくることを意味した。これがビッグデータの本質であろう。」(森氏)。 

これは非常に腑に落ちる説明だ。「理論がなくともデータが大量にあれば」 というのは「臨床診断」に最も相応しいプロトコールではないかと、小生などベッドサイドで最近つくづく思うからだ。

たとえば急性虫垂炎である。いろんな情報がある。スタートは右下腹部痛である。そこにいろんな経験が診断を修飾する。「下痢にアッペはない」「当初は季肋部痛である」「嘔気からスタートする」「高熱はない」等々

これらは一対一の対応である。だから悩ましい。実臨床では高熱のアッペがあってもおかしくないし、下痢をしているアッペがいてもおかしくないからだ。

そこにビッグデータが出現。カルテには一人の患者の臨床記録と最終診断が載っている。この世のどこかにあるスパコン様「Big Blue」がこのデータをscanしていく。データをさらわれるわけだな。全世界中の病院データからscanしていくのだ。

そして多変量解析あるいはアレイデータなどでよく使われたヒエラルキー・クラスタリング解析などを「予見なく」行うわけである。クラスタリング解析とは「距離」の計算であり、距離に応じて仲間分けをしていく方法論であるから、まさに先の翻訳ソフトと類似するのである。

アッペ患者数万人のデータ解析をする。その結果パソコンにはアッペ診断学のアルゴリズムができあがる。

さてアッペ疑いの新患がやってきたら、その新規患者の臨床経過を逐一カルテ(電子カルテにでありますぞ)に記入していく。すると「人間には何故そうなるのかは、『にわかにはわからないアルゴリズム計算」の結果、正確に「アッペの診断」がつくのである。

先のグーグルの翻訳アルゴリズムはこのアッペ診断法を先達しているのではないだろうか?

これが小生のビッグデータの理解である。 クラスタリング解析を山のように見てきて、もう人知の及ぶところではないなあと実感すること15年の達観なのである(あきらめかしら?)



0 件のコメント: