●ビッグデータとパターン認識
前半では、アルゴリズム革命ということを強調するとともにプラットフォーマーという話もしてきました。このアルゴリズム革命を体化したところが、シリコンバレー発のGAFAのような巨大IT企業の強みです。もう一つは、プラットフォーマーというビジネスモデルを自分のものにしたことです。ここで、この二つについて、詳しくお話をしてみたいと思います。
近年、コンピュータの演算能力が幾何級数的に高まっています。掛け算というより、乗数がどんどん高まっていくわけです。グーグルのコンピュータ・センターの容量は10の21乗だそうですから、とんでもないサイズです。こうしてデータサイズが大きくなったことからビッグデータが登場するわけです。
しかし、ビッグデータもそれだけではゴミの山で、コンピュータが認識しなければ意味がありません。ビッグデータそのものは全く認識できないですから、まず「パターン認識」ということを行うわけです。パターン認識は、コンピュータが図形や自然言語を認識、理解することです。グーグルの創業者たちが「構造化されていないデータをどう解読するか」と言っているのは、このことです。
構造化されるというのは、数字化されてデジタルになったものです。人の名前や絵などは、構造化されていないゴミの山です。リンゴやミカン(の絵)、手書き文字などは人間なら一瞬で理解できるものですが、コンピュータは、これまで構造化されたデジタルデータしか理解できませんでした。
だから、パターン認識はコンピュータには無理だといわれていたのですが、AIの能力が非常に発達したため、パターン認識が実用化したのです。パターン認識はどのように行うかというと、ニューラルネットワークという情報処理の方法に基づいています。
●ニューラルネットワークと機械学習
ニューラルネットワークのモデルは、人間の神経細胞です。人体の最小の細胞は「ニューロン」という神経細胞です。このニューロンに似た働きをする仕組みをニューラルネットワークといいます。これをコンピュータの中でつくり、大量のデータを用いて、情報処理方法を習熟させるわけです。
人間の脳の中にある膨大な数のニューロンは互いに信号を送り合い、情報処理を行って、さまざまな経験から学習することで処理の仕方を変化させていきます。コンピュータの中で、このような仕組みを再現したのが、ニューラルネットワークということです。
これがディープラーニングの仕組みになるわけですが、画像を認識するには、パターン分析するため、画像を多数の小さなユニット(要素)に分けます。例えば絵を写真に撮って拡大していくと、ブツブツの小片(ピクセル)が現れます。各ピクセルの明るさを数値にし、その値を並べたベクトルにある係数を掛けて次のベクトルを生成する。その係数を修正しつつ、大量のデータで学習を繰り返す。こうした係数調整のプロセスが「機械学習(ディープラーニング)」にとって一番重要な概念です。
機械学習は、間違いをどんどん修正していくということを繰り返すことで、次第にAIが判別能力を獲得するわけです。現在では、エラー率5パーセントまで低下しました。これは、人間とほとんど同じだそうです。しかも、人間よりスピードが速い。
ただ、なぜコンピュータがこういうことをできるのかは、われわれ人間はまだ理解できないのだそうです。われわれは日常的に、たとえばスマホに語りかけて文章をつくりますが、それがパターン分析にあたります。それから自動翻訳もパターンです。パターン認識は、自動運転の車などには一番重要な能力になるようです。
●プロファイリングと「いいね!」の方法
もう一つ必要なのが、プロファイリングということです。プロファイリングとは何かというと、ビッグデータから個人属性を推定することです。AIはビッグデータを用いてプロファイリングができます。どういうことかというと、コンピュータは個人の属性、性格、好み、意見などを推測するわけです。
このビッグデータを活用すると、相手から直接情報を得なくても相手のことが分かり、個人の行動が予測できるということなのです。
もう少し分かりやすく言いましょう。フェイスブックに「いいね!」の機能があります。この「いいね!」を分析すると、驚嘆すべき結果が得られるというのです。
何年か前に、マイケル・コシンスキーという人が、ケンブリッジ大学で5万8000人のフェイスブックの「いいね!」データを研究しました。「いいね!」とは何かという...