10MTVオピニオン|有識者による1話10分のオンライン講義
ログイン 会員登録
10MTVオピニオンは、有識者の生の声を10分間で伝える新しい教養動画メディアです。
このエントリーをはてなブックマークに追加

ビッグデータの実用化にはデータの標準化・規格化が必要

ビッグデータの実用化(2)データサイエンティスト

柳川範之
東京大学大学院経済学研究科・経済学部 教授
情報・テキスト
東京大学大学院経済学研究科・経済学部教授の柳川範之氏が、ビッグデータを実用化する際の注意点について解説する。大量の情報を意味のあるビッグデータとして用いるためには、プログラミング能力だけでなく分析・判断能力に長けたデータサイエンティスト、そしてデータの規格化・標準化が必要である。(全3話中第2話)
時間:10:29
収録日:2017/06/29
追加日:2017/07/30
タグ:
≪全文≫

●大量の情報だけでは、意味のあるビッグデータにはならない


 前回は、ビッグデータが大きな競争力をもたらす、と述べました。しかし、そもそもビッグデータとは何かを、厳密に考える必要があります。単純に発想すれば、とにかく集められるだけのデータを集めればいいのではないか、ということになります。実際、サーバーに集められるだけのデータを貯めておくということも、よくなされています。

 しかし、たくさんの情報があるだけでは、意味のあるビッグデータにはなりません。集まった情報を意味のあるデータにして、さらに人工知能などの分析ツールを使って、意味のある分析ができてこそ、ビッグデータが価値のあるデータになるのです。

 しかし、言うは易し行うは難し、です。集められた数多くの雑多な情報を、価値のあるデータに変えていくための、高い分析能力を獲得することは、非常に困難です。しかし、これがビッグデータ間の競争を大きく左右します。


●データサイエンティストが必要だ


 重要なポイントを2つ述べます。1つ目は、データサイエンティストの存在です。情報を解析すること、具体的にいえば、プログラムを書いたり、分析ができる人材をそろえる必要があります。単に集められただけの情報は、価値のないごみの山です。ごみの山を価値のある宝の山に変えていくには、データサイエンティストが必要なのです。

 そういうわけで、最近、世界中でデータサイエンティストに注目が集まり、データサイエンティストの獲得競争が始まっています。しかし日本では、データサイエンティストがかなり少なく、競争が起きる前の段階です。つまり、データサイエンティストを増やしていくことが先決なのです。


●幅広い情報と知見を備えた、分析能力が求められる


 広くデータサイエンティストと呼ばれている人は、プログラムを書くことができるというイメージがあるでしょう。しかし、データサイエンティストとしては、実際には、もう少し幅広い人材が必要です。雑多な情報を意味のある情報に変えていくためには、分析が必要です。その分析のためには、単にプログラムが操れるだけでは、十分ではありません。何が意味のある情報かを見出す知見や、判断力が必要になってくるのです。もちろん、プログラムを書き、AIを操るということは重要です。しかし、どのようにプログラムやAIを操ればいいのか、出てきた結果をどのように解釈すべきなのかということを考えれば、その産業に関する知見や、実際のデータが持つ特性などを、幅広く知っていなければなりません。

 したがって、場合によっては、プログラムを書くことができる必要はなく、むしろ、その産業の内情を熟知しており、コンピュータが導き出した結果の意味をきちんと分析できることの方が、重要になることもあるでしょう。そのためには、プログラムの知識や能力だけでなく、産業の特性や業界慣行、世界の動向といった、幅広い情報と知見を備えており、出てきた結果を分析・判断する能力が必要です。これは社会科学系の能力でもあるでしょうし、長年の経験が要求されることでもあります。データがたくさん集まってきて、コンピュータが分析した後に、こうした人材が重要となるのです。現状では、こうした人材に焦点が当たっていませんが、本当のボトルネックになるのは、こうした人材です。

 実際、きちんとした会社では、こうした人材がそろっているはずです。分析能力を持った人材を、ビッグデータの解析部門に配置しなければなりません。コンピュータが導き出した結果を実際の現場にどのように適用していくのか、どうやって経営戦略に落とし込んでいくのか、こうした判断力を持つ人材こそが求められるでしょう。今後、多くの会社でも、そうした能力を持つ人材を育成し、データの分析に配置するようにしていただければと思います。そうすれば、単なるビッグなデータを、宝という意味でビッグなデータに変えることができ、競争の優位性がもたらされるでしょう。


●業界横断的に、データを標準化・規格化する必要がある


 2つ目のポイントは、標準化・規格化です。データを集めても、うまく標準化・規格化されていなければ、プログラムで分析することができません。現状は、さまざまなデータがさまざまな形で集まっている、という状況です。

 例えば、IoT(モノのインターネット)から集まってきたAという情報と、POS(売上)データのようなBという情報を、直接比較することは困難です。あるいは、同じ企業で集められたデータであっても、それらのデータが同じ企業のものであることを示すラベルが付いていなければ、同じ企業のものだと認識されません。同じ会社でも、Aデータではア、BデータではAとしてラベリングされていれば、同じ会社のデータとして分析できないのです。そ...
テキスト全文を読む
(1カ月無料で登録)
会員登録すると資料をご覧いただくことができます。