松尾 人工知能(AI)が世間の注目を集めています。じつは、過去にも二度「AIブーム」があり、最初は一九五六~六〇年代、二度目は一九八〇年代でした。その上で、現在のAI技術は大きく三つに分類することができます。
一つ目は、従来「IT(情報技術)」と呼んでいたものをたんに「AI」と呼び替えているもの。企業にとっては、「この商品はAIを搭載している」と宣伝することで、売れやすくなる面があるのでしょう。
二つ目は、検索エンジンなどの分野で伸びてきた機械学習や自然言語処理の技術です。機械学習とは、機械が膨大なデータから自動的に学習してモデルをつくり上げる手法です。この技術が「AI」と呼ばれ、さまざまな産業分野に導入されつつあります。
そして三つ目が、機械学習の階層をさらに深くしたディープラーニング(深層学習)です。ディープラーニングにより、画像認識における技術は格段に進歩しました。もともとコンピュータは画像認識を苦手としてきましたが、いまは人間の認識精度を超えるレベルにまで達しています。
以上、三つの分類で、ITと機械学習の技術はすでに世界中の企業が実践・応用しています。したがって日本企業がこの二つの分野に傾注したところで、各企業の成長力が底上げされても、日本全体の競争力強化にはつながらない可能性が高い。私はこれまで、「投資をするならディープラーニングだ」と言い続けてきました。日本企業はカメラやイメージ・センサーなどの分野で他国に勝る強みをもっていますから、画像認識と親和性のあるディープラーニングに力を入れることが賢明だからです。
では、具体的に画像認識の技術はどこまで進化しているか。コンピュータに画像を与えてネコかどうかを判別させるタスクを例に挙げると、従来は、ネコがもつ特徴を人間が定義し、その定義に基づいてコンピュータが判別していました。
一方ディープラーニングでは、コンピュータ自らが学習し、ものごとの「特徴量」を発見することができるようになりました。たくさんの画像を読み込ませると、コンピュータ自身がネコの特徴を見つけ出し、ネコかどうかを判別するのです。インターネットの世界では、ある程度の「遊び心」がないと差別化できず、イノベーションも起こせない。他方、ディープラーニングで求められるスキルは数学とプログラミングくらいですから、真面目な気質の日本人には向いているといえます。
ディープラーニングの技術が進むと、「認識」「運動の習熟」「言葉の理解」の順番で、AIの可動領域が深まっていきます。
まず「認識」では、二〇一二年にAIの画像認識の技術が飛躍的に向上しました。以前は画像認識のエラー率が二八~二九%ほどでしたが、二〇一二年にカナダのトロント大学の研究チームが一六%を切ることに成功しました。二〇一五年二月には、マイクロソフトがエラー率四・九%を記録し、最近では三%台まで下げています。人間のエラー率はおよそ五・一%とされていますから、画像認識の精度でコンピュータが人間を超えたということです。
たとえば、画像のどこに何が写っているかを判定する物体検知というタスクにおいて、「これは人で、あれは携帯電話」と見分ける判定が、完全に近いレベルにまで達しています。これまでの「眼をもたないロボット」が、「眼をもったロボット」に進化したといえるでしょう。
続いて「運動の習熟」も進歩しています。人間は試行錯誤を繰り返しながら、生きていくのに必要な行動を習熟していきます。物事がうまくいったときは快感情などの「報酬」が人間には伴うから、習熟が可能なのです。
一方、機械にはそもそも習熟という概念がない。もちろんロボットにも、報酬のための行動を繰り返す「強化学習」を促すことはできます。しかし状況によって行動様式が変わるため、つねに状況と行動がセットでなければいけません。ロボットでは判断できない状況を人間が定義する必要があるのはそのためです。
ところがディープラーニングによって、コンピュータが状況の特徴量を自ら見つけ出し、判断できるようになりました。人間に頼らなくても、ロボット自らが強化学習を行なえるようになったのです。
たとえば、ブロック崩しゲームをさせるプログラムがあります。ゲームのスコアを報酬に設定し、映像を与えてAIに学習させます。初めは拙い動きしかできませんが、回数を重ねるうちに、報酬を高めるための最適な方法を自分で身に付けていきます。ブロック崩しと同じプログラムを使って、インベーダーゲームを強化学習させることも可能です。
強化学習の技術をロボットと組み合わせると、眼をもったロボットが映像を自ら判断して、試行錯誤を重ねながら作業を上達させていきます。さまざまな形の積み木が無造作に入っている箱の中から、個々の形を選別して運ぶこともできます。
じつはAIの世界では、高度な推論よりも子どもが行なうような感覚運動のほうが難しいとされる「モラベックのパラドックス」という概念が存在します。それもディープラーニングの急速な進歩により、眼で見て形の違う積み木を積みあげるという、子どもの動作もできるようになりました。
しかし、最終段階の「言葉の理解」はまだ発展途上です。人工知能によってある程度の言葉の処理はできるようになったとはいえ、意味をわかって処理しているわけではない。相手の社会的背景を考慮して言葉を理解するレベルに達するには、まだ時間がかかるでしょう。