2016年7月8日

人間vs.機械:顔認識が得意なのは?

テクノロジー ニュース

2010年、世界最大の顔データベースFacebookは、風景と人物を見分ける方法を習得し(英語記事)、写真の中から顔を探してタグ付けできるようになりました。たまに間違えることもありましたが、4年後には、写真の中の人物が同一人物なのか別の人物なのかを97%の精度で判別可能になりました(英語記事)。

これは、Facebookにとって大きな進歩です。とはいえ、同社の認識アルゴリズムの精度は人間の脳に比べて3%劣っています。画質の悪い写真の中から知っている人を見つけるように言われたら、人間の方がコンピューターよりも精度が高いでしょう(英語記事)。その写真が不自然なアングルから撮影されたものであったとしても、です。

通常はコンピューターの方が人間よりも精度が高いのですが、これは珍しいケースです。なぜ人間はこうした処理が得意なのでしょうか。また、コンピューターはどうやって同じことをしているのでしょうか。

過酷な訓練を積んだ人間の脳

脳の中には、顔認識を専門とする領域が存在することが明らかになっています(英語記事)。これは紡錘状回と呼ばれる領域で、側頭葉と後頭葉の一部です。人間は生まれたときから顔を認識します。赤ちゃんは人生の第一歩を踏み出したその日から、この能力を磨き始めるのです。早ければ4か月で赤ちゃんの脳は、ある叔父と別の叔父を判別できるようになります(英語記事)。もちろん、叔母のことも区別できます。

私たちが互いを認識するときの手掛かりとなる顔の部位は、目、頬骨、鼻、口、眉毛です。肌も重要な要素で、特に質感や色は判断材料になります。特筆すべきは、脳が顔を全体として捉えることです。個々の部位に着目することはほとんどありません(英語記事)。そのため、スカーフや紙で顔が半分隠れていても、簡単に人を認識できます。ただし、2人の有名人の顔を混ぜ合わせて合成写真を作った場合、それが誰と誰なのかわかるまでにしばらく時間がかかる可能性があります。

facial-recognition-featured

ブラッド・ピットとアンジェリーナ・ジョリーの顔を合成すると、こんな感じに

この世に生まれたときから、私たちの脳にはさまざまな顔の情報が蓄積されます。そして、少しずつ汎用テンプレートを作成し、顔認識処理に利用します。このテンプレートを絵で表現したら、こんな感じかもしれません。

256052_900

顔認識処理は、人の容姿と内なるテンプレートを脳が比較するプロセスです。テンプレートに比べて鼻は大きいのか、唇は厚めなのか、肌の血色はいいのか悪いのか、といった具合に。あまり海外旅行をしない人は、外国人がみな同じ顔に見えると言います。それは、その人のテンプレートは、身の回りでよく見かける顔の特徴だけに「敏感に反応する」からです。

ちなみに、犬やサルなどの動物も顔を識別できます(英語記事)。嗅覚の方がより多くの役立つ情報を得られるのですが、視覚も他の生物を認識する上で役立ちます。面白いことに、人間の一番の友達である犬は、人間の顔から気持ちを読み取るだけでなく、笑い方を覚えることもできるそうです(英語記事)。

コンピューターが顔を認識する方法

人間の笑顔と顔認識処理との間には、どのような関係があるのでしょうか。この2つは切っても切り離せない関係にあり、特にコンピューターのアルゴリズムでは、表情によって顔が変わると、識別できなくなります。

ソフトウェアの場合、正面を向いた2つの顔を比較し、同一人物かどうかを判断します。この処理方法は、似顔絵を描く画家とかなり似ています。画家は人間の顔の「節点」を分析し、この節点を個々の顔の判別に使います。別の手法では、1人の人物の顔から80~150の節点を見つけます。

たとえば、画家やソフトウェアが測定するのは、目の間隔、鼻の幅、目のくぼみの深さ、頬骨の形、あごの長さ、などです。

image_image_77893

これらの測定値は、カメラを構える位置を変えたり、モデルに振り返ってもらったりすると変わります。顔認識処理のアルゴリズムは、画像を2次元空間だけで分析するものが多いため、認識の精度において視点は非常に重要です。匿名に徹したい方は、サングラスで目と頬骨を隠し、あごと口をスカーフで巻いて隠してください。FindFaceサービスのスキャンダルを検証したとき、正面から写した画像のモデルしか認識されませんでした。

この手を使えば、「平面的な画像」で顔を認識するサービスを騙すことができます。しかし、朝の光が一日中照り続けることがないように、アルゴリズムもさらなる進化を遂げています。

次に来るものは?

脳の顔認識能力は、私たちの成長とともに鍛えられます。「味方」と「敵」を区別する能力は、生存競争において重要なスキルだからです。最新のコンピューターも、人間のように学習して自己プログラミングすることができます。顔認識処理の精度を上げるために、開発者は自己学習アルゴリズムを取り入れ、何百人もの顔画像を分析させます。こうした画像は簡単に手に入ります。SNS、写真ホスティングサイト、フォトストックなど、ネット上に顔写真は大量に存在していますから。

顔の識別は、3Dモデルをアルゴリズムに取り入れたころから、効率よく処理されるようになりました。顔に格子を投影し、人間の頭の動画キャプチャを組み込めば、さまざまな角度から人物の容姿を把握できるようになります。ちなみに、人間の脳内のテンプレートも3次元です。このテクノロジーはまだ発展途上ですが、すでに市場では商標特許を取得した製品を見かけます。

模倣に関する研究も勢いを増しています。感情をリアルに描写する技術は、ゲーム業界にとって大きな価値があるので、多くの企業はゲームのキャラクターをもっとリアルにしようと必死になっています。すでにこの方向へ向かう重要な一歩が踏み出されており、同じ技術が顔認識ソフトウェアでも大いに活用されるようになるでしょう。人間の模倣に適用されるようになれば、写真の中で笑顔を浮かべる女の子は、実は街中にいた子の表情を利用したものだと気づく日が来るかもしれません。

3Dモデル以外に、別の観点でも研究が進んでいます。たとえば、Identixは顔認識用の生体認証技術「FaceIt Argus」を開発しました(英語記事)。この技術では、しわ、毛穴、傷跡といった肌質の特徴を分析します。FaceIt Argusの開発者によると、これまで顔認識ソフトウェアだけでは不可能とされた一卵性双生児の識別が可能になるそうです。

また、(まばたき、しかめっ面、笑顔など)表情の変化の影響を受けず、口ひげやあごひげの伸び具合や、メガネのデザインを補正することも可能だそうです。FaceIt Argusを他の顔認識処理システムと組み合わせれば、認識精度は20~25%向上するでしょう。一方で、暗い場所で撮影された低解像度の画像では、顔認識がうまくいきません。

この弱点を補うテクノロジーもあります。ドイツのカールスルーエ工科大学のコンピューター科学者たちは、赤外線撮影された画像を使って、暗がりでも真っ暗闇でも顔を認識できる技法を新たに開発しました(英語記事)。

この技法は、体温の特徴を分析し、中赤外線画像または遠赤外線画像と、通常の方法で撮影された写真と比較するもので、精度は最大80%です。画像の数が多いほどアルゴリズムの解析成功率は向上します。画像が1枚しかない場合、精度は55%に下がります。

この技法は一見簡単そうに見えますが、実はなかなか複雑です。問題は、通常の光の下で撮影された顔と赤外線の光で撮影された顔には、はっきりとした相関関係がないことです。放射エネルギーを基準として作成される画像は、太陽光の下で撮影された普通の写真と見た目がかなり異なっています。

放射エネルギーの密度は、皮膚温や気温、さらにはその人物の気分によっても大きく変わります。しかも、一般的に赤外線画像は通常の写真と比べて解像度が低く、顔認識処理はさらに難しくなります。

2AEFE49A00000578-3178864-Computer_scientists_have_developed_a_technology_that_can_recogni-m-29_1438184452186

この問題を解消するため、科学者たちは機械学習アルゴリズムに目を向け、82人の顔写真1586枚を「分析させて」います。

至るところに顔認識テクノロジー

今や、世界中どこでも顔認識テクノロジーが利用されています。最近では、Uberが似たようなソリューションを中国で展開し(英語記事)、同社のタクシー運転手を管理しています。NECとMicrosoftは顔認識処理とIoTを組み合わせ(英語記事)、マーケティング担当者が顧客についてもっと詳しく把握できるソリューションを展開しています。その一方で、ロシアのDvachフォーラムの荒らしたちが顔認識サービスを利用して、AV女優をオンライン上で攻撃する事例もありました。

顔認識テクノロジーが発展すれば、これまでのプライバシーの概念を改めて考えることになるでしょう。顔認識とプライバシーの問題が、今すぐ、または1年後に起きるわけではありませんが、対応を進めなければならない時期にあります。結局のところ、自分の顔を変えるのは無理なのです。

テクノロジーによってプライバシーがどのように侵害されるのかを知りたい方は、英国のテレビドラマ『Black Mirror』をお勧めします。特に、『Fifteen Million Merits』(英語)の回は必見です。