ディープフェイクは、人工知能分野における発展の中で生まれた、不幸な産物の1つにすぎません。しかし、機械学習アルゴリズムによって生成された「フェイク」の情報は、ここ数年で大きな影響力を持つようになっています。RSA Conference 2020でアリッサ・ミラー(Alyssa Miller)氏が『Losing our reality』(Kaspersky訳—失われつつある現実)と題して行った講演では、なぜ(米国大統領選挙の年であることはさておき)このタイミングでディープフェイクを脅威と捉えるべきなのか、そして企業がそのような攻撃を受けた場合に影響をどう軽減できるのかについて、知見が示されました(リンク先は英語)。
ディープフェイクの作り方
ディープフェイクの作り方として最も一般的なのは、敵対的生成ネットワーク、あるいはGAN(Generative Adversarial Network)と呼ばれるシステムを使用する方法です。GANは、競争し合う2つのディープニューラルネットワークで構成されています。準備段階として両ネットワークに対して実際の画像を使った学習が行われた後、「敵対的」なプロセスがスタートします。一方のネットワークが画像を生成し(名前に「生成」が入っているのはこのため)、その画像が本物か偽物かをもう一方のネットワークが判定しようとするのです(こちらは「識別」ネットワークと呼ばれます)。
以降、生成ネットワークは学習し、判定結果からも学習します。同時に、識別ネットワークは自身のパフォーマンスを高める方法を学習します。1サイクル経るごとに、両方のネットワークの能力が上がっていきます。
学習サイクルが1万回に達するころには、生成ニューラルネットワークが作成する偽画像のクオリティは、同じくらい進んだニューラルネットワークが本物と区別できない水準まで上がっています。
この方法は実際、さまざまに応用が利きます。用意されたデータに基づいて、生成ネットワークは特定タイプの画像を作成する方法を学習します。
ディープフェイクの場合は、特定の人々の実際の写真を使って学習することで、説得力のある(しかし偽物である)写真をいくらでも生成できるネットワークが生み出され、そうした写真が動画に取り込まれています。同じような手法で偽の音声を生成することも可能で、すでにディープフェイクの音声を使用したと思われる詐欺事件も起きています。
ディープフェイクはどこまで本物らしく見えるのか
初期のディープフェイク動画はお話にならないクオリティでしたが、現在では恐ろしいほど本物らしく見えるまでに進歩しています。恐ろしいほど本物らしく見えるディープフェイクの例として特に有名なのは、2018年に登場した、偽物のバラク・オバマ元米大統領がほかならぬディープフェイクについて(時おり現大統領への悪口をはさみながら)語る動画です(英語)。2019年の中頃には、偽物のマーク・ザッカーバーグ氏がプライバシーの現況についていやに正直に語る動画が現れました(英語)。
ディープフェイクの進歩のほどを知るには、以下の動画を見ていただくのが一番です。ものまね芸人のジム・メスキメン(Jim Meskimen)氏がディープフェイクアーティストSham00k氏とコラボレーションして作成した動画で、メスキメン氏が声を担当し、Sham00k氏がディープフェイクソフトウェアを使って有名人20人の顔を動画に入れ込みました(英語)。実に驚くべき動画に仕上がっています。
Sham00k氏の説明によると、「動画全体を完成させるまでにかかったのは、250時間強の作業、1200時間のビデオ映像、30万個の画像、1テラバイト近くのデータの作成だけ」とのことですが、そのような動画を作り上げるのは並大抵の仕事ではありません。しかし、そのような本物らしい偽情報は市場に(あるいは、たとえば選挙に)多大な影響を及ぼしかねず、その影響力の大きさからすると、恐ろしく簡単で費用もかからない作業に思われます。
そうした理由から、上記の動画が公開されたのとほぼ時期を同じくして、米国カリフォルニア州は選挙期間中の政治的なディープフェイク動画を禁止しました(英語記事)。しかし、問題は残されたままです。そもそも一般論として、ディープフェイク動画は表現の一形態であり、政治風刺と同じようなものです。カリフォルニア州による禁止令は、言論の自由を尊重しているとは言えません。
もう1つ、技術的であり実際的でもある問題があります。ディープフェイク動画と本物の動画は、具体的にどうやって見抜くことができるのでしょうか?
ディープフェイクの見抜き方
機械学習は、世界中の科学者から熱い注目を浴びています。ディープフェイクも興味深く魅力的な問題と捉えられ、多くの科学者がこの分野に取り組んでいます。そのため、画像解析を使ってディープフェイクを見抜く方法をテーマとした研究プロジェクトがいくつもあります。
たとえば、2018年6月に発表された論文は、まばたきの解析によってディープフェイク動画を見破る方法について述べています(英語)。特定の人物がまばたきをしている写真を十分に手に入れることなかなかできないので、ニューラルネットワークはまばたきを十分に学習していないのではないか、という考え方です。実際、その論文が発表された頃のディープフェイク動画では、人物がまばたきする回数が不自然なほど少なく、人間の目では違いを捉えにくくてもコンピューター解析を活用して見抜くことが可能でした。
2018年11月に発表された2つの論文は、顔のワーピング処理に伴う不自然さと一貫性のない頭の動きに着目することを提案しています(英語)。また2019年に発表された別の論文では、人が話すときに典型的に見られる顔の表情や頭部の動きを解析する先進的な手法を紹介しています(英語)。
しかし、ミラー氏が指摘するように、これらの手法は長期的には有効でない可能性が高いでしょう。そうした研究はディープフェイクの作成者にフィードバックを提供していることにほかならず、識別ニューラルネットワークの改良、さらには生成ネットワークの学習を強化して、ディープフェイクのクオリティ向上を助けています。
企業コミュニケーションをもって、ディープフェイクの脅威を緩和する
このような問題がある以上、現時点では、純粋に技術的な解決策ではディープフェイク問題に対する大きな効果は見込めそうにありません。しかし、できることはあります。効果的なコミュニケーションによる、脅威の軽減です。自社に関連する情報をモニタリングし、偽情報の広まりが見られたときに情報のトーンをコントロールできるように準備することが必要となるでしょう。
ディープフェイクの脅威に備えて企業が取り得る対策として、ミラー氏は以下を推奨しています。なお、これらの策は、別のタイプの企業広報的問題が発生した場合の対処にも役立つ場合があります。
- 企業のコミュニケーション経路を最小限に絞る。
- 一貫性のある情報発信を推し進める。
- 偽情報対応プランを策定する(偽情報の出現をセキュリティインシデントとして扱う)。
- 監視と報告を一元的に行う機能を組織する。
- 責任を負うべき立法および民間セクターでのファクトチェックを働きかける。
- ディープフェイクを見破り阻止するための対策の進展を注視する。