日本だけではない 世界で増加する音声詐欺

人の声を模倣する音声のディープフェイクの技術は、すでに数百万ドル規模の詐欺に使用されています。音声のディープフェイクは、どのように作られるのでしょうか。詐欺と見破るためにはどうすればよいのでしょうか。

電話の話し相手が誰なのか、電話がかかってきたときに表示される名前だけではなく、相手の声のトーンで気づくこともよくあります。また、保存した番号から電話がかかってきたときに、聞きなれない声が聞こえたら、何か変だと感じます。話している相手を判断するため、私たちは、無意識のうちに、声色、話し方、抑揚に注意を払っています。しかし、AI(人工知能)のデジタル時代に、人間の聴覚はどれほど信頼できるのでしょうか。最近報告されているAIを使ったオレオレ詐欺のように、聞こえるものは常に信頼できるわけではありません。音声は偽物、つまりディープフェイクの可能性があります。

助けて、大変なの

今年に入ってアメリカ、アリゾナ州で報告された詐欺の事例を詳しく見てみましょう。ある女性のもとに非通知の番号から電話がかかってきました。その電話からは15歳の娘(らしき少女)が、「過ちを犯した」「どうか助けて」などと言い、泣きじゃくりながら助けを求めていました。その直後、男が電話を奪い、背後で娘の悲痛な叫び声が続くなか、100万ドルの身代金を要求し始めました。電話を受けた女性は、女の子の声が自分の本当の娘だと直感的に100%信じ込んだと事件後に話しています。幸いにも夫と友人のサポートで娘がトラブルに遭っていないことはすぐわかり、詐欺であることに気づきました。

この事件では、犯人が少女の声を模倣するためにディープフェイク技術を使用したとは100%断定されておらず、もしかしたら、通話の質、その時の状況、母親のストレスや思い込みなどから、聞いていないことを聞いたかのように母親を信じさせたのかもしれません。しかし、最近多発するAI技術が使用された音声詐欺の可能性が高いとみられています。

ディープフェイクとは

ディープフェイク「ディープラーニング(深層学習)」+「フェイク」)人工知能は、ここ数年で急速に発展し続けています。機械学習を使用すると、説得力のある画像、動画、または音声コンテンツの偽物を作成できます。例えば、ニューラルネットワーク技術を写真や動画で使用すると、顔の表情や背景、証明の明るさなどを維持したまま、ある人物の顔を別の人物に置き換えることができます。当初、これらの偽物は質が低く、簡単に見破られていました。しかし、アルゴリズムの発展に伴って説得力が増し、現在では本物と区別するのが難しいものも多くあります。2022年、世界初のディープフェイクテレビ番組がロシアで公開され、俳優のジェイソン・ステイサム、マーゴット・ロビー、キアヌ・リーブス、ロバート・パティンソンが(ディープフェイクで)主人公を演じました。

ロシアのテレビシリーズ「PMJason」のハリウッドスターのディープフェイクバージョン(出典) [/ATC]

ロシアのテレビシリーズ「PMJason」のハリウッドスターのディープフェイクバージョン(出典

音声変換

私たちが注目するのは、音声ディープフェイクの作成に使用されるテクノロジーです。これは、音声変換(ボイスコンバージョン、または、完全なデジタルコピーを作成する場合は「音声クローン」)とも呼ばれます。音声変換は、オートエンコーダーに基づいています。オートエンコーダーは、ニューラル ネットワークの一種で、入力データ(エンコーダーの一部)をまずコンパクトな内部表現に圧縮した後、次にこの表現(デコーダーの一部)から元のデータを復元するために解凍する方法を学習します。このようにして、モデルは最も重要な情報を強調しながら、圧縮された形式でデータを表示することを学習します。

オートエンコーダー方式

オートエンコーダー方式(出典

音声ディープフェイクを作成するには、2つの音声録音をモデルに入力し、2つ目の録音の音声を一つ目の音声に変換します。コンテンツ・エンコーダーは、最初の録音から言ったのかを判断するために使用され、スピーカー エンコーダーは、2番目の録音から声の主な特徴、つまり2人目の人物がどのように話すかを抽出するために使われます。何を言わなければならないか、どのように言うべきかという圧縮表現が結合さ​​れ、その結果がデコーダーを使用して生成されます。このようにして最初の録音で言われた内容が2番目の録音の人物の声として音声化されます。

音声ディープフェイクを作成するプロセス

音声ディープフェイクを作成するプロセス(出典

オートエンコーダーを使用する他のアプローチもあります。敵対的生成ネットワーク(GAN)拡散モデルを使用するものです。ディープフェイクの作成方法に関する研究は、特に映画業界が積極的に支援しています。音声と動画のディープフェイク技術を使用すれば、映画やテレビ番組に出演する俳優の顔を他の人に変えたり、顔の表情までも全く同じ映画を様々な言語に吹き替えたりすることが可能になるのです。

どのような方法で?

ディープフェイク技術の調査中、私たちは自分の声を模倣することがどれほど難しいのか疑問に思いました。音声変換を扱うための無料のオープンソースツールがたくさんあることはわかりましたが、それらを使用して質の高い結果を得るのは容易ではありません。Pythonプログラミングの経験と優れた処理スキルが必要ですが、それでも品質は理想とはかけ離れていました。オープンソースに加えて、有料のソリューションも利用できます。

Microsoftは2023年初めに、わずか3秒の音声サンプルを使って人間の声を再現できるアルゴリズムを発表しました。このモデルは、複数の言語にも対応しているため、外国語を話している自分の声を聞くことさえできます。これはすべて有望に見えますが、まだ研究段階にすぎません。しかし、ElevenLabsのプラットフォームを使用すると、ユーザーは難なく音声ディープフェイクを作成できます。音声の録音と話すべき言葉をアップロードするだけでよいのです。もちろん、この噂が広まると、人々はすぐにこのテクノロジーをさまざまな方法で試し始めました。

ハーマイオニーの戦いと信頼しすぎる銀行

ゴドウィンの法則に従って、女優エマ・ワトソンは『我が闘争』を読まされ、ニュースサイトViceのライターは、ElevenLabsのテクノロジーを使用して、自分の銀行口座を「ハッキング」しました。不気味に聞こえませんか?金融機関や政府組織、世論調査を実施する企業などを装い、人々に「はい」または「確認」などと言わせ音声のサンプルを録音、収集し、それらを音声認証に使用して金銭を窃取する詐欺師を想像してみてください。

ただし、実際には状況は(まだ)そこまで酷くはありません。まず、ElevenLabsで人工音声を作成するには5分程度の音声録音が必要なので、単純に「はい」と言うだけでは不十分です。第二に、銀行側もこのような詐欺のケースを把握しており、様々な対策を展開しているため、そう簡単に犯罪者が大金を関係のない口座に送金するなどしてお金を盗むことはできません。人工音声が使用できる可能性が最も高いのは、送金に関係のない特定の操作(口座残高の確認など)を開始する場合のみでしょう

真っ先に人工知能を使った音声クローニングツールを開発したElevenLabsは、精巧な合成音声がハッキングや詐欺に利用される可能性に迅速に対応し、サービスルールを書き換え、無料(つまり匿名)ユーザーが自分のアップロードした音声に基づいてディープフェイクを作成することを禁止し、「不快なコンテンツ」として苦情が報告されたアカウントをブロックしました。

このような対策は役に立つかもしれませんが、音声ディープフェイクを犯罪や嫌がらせ目的で使用する根本的な問題の解決策にはなりません。

ディープフェイクを詐欺に使用する他の方法

ディープフェイク技術自体は無害ですが、詐欺師の手にかかると、欺瞞、名誉毀損、偽情報の拡散など、様々なリスクをもたらすツールになりかねません。幸いなことに、音声のディープフェイクが悪用された大規模な詐欺事件は現時点で発生していませんが、注目を集めた事件がいくつかあります。

2019 年、犯罪者は、AI音声技術を利用して、英国に拠点を置くエネルギー会社に音声詐欺を仕掛けました。電話の中で詐欺師は、ドイツにある同社の親会社のCEO最高経営責任者を装い、ハンガリーのサプライヤーに22万ユーロ(24万3000ドル)を至急送金するよう要求しました。1回目の電話の後、詐欺師はさらに2回電話をかけてきました。1回目は、親会社がすでに返金を行ったと報告して英国オフィスのスタッフを安心させ、2回目にはさらなる送金を要求しました。英国の代表は、3回とも上司である親会社のCEOと話していると完全に信じ込んでいました。彼のドイツ語なまりや口調、話し方がそっくりだったからです。ただ、3回目に電話がかかってきたとき、英国の代表は、ドイツの番号ではなくオーストリアの番号が表示され、疑念を抱き始めました。そのため、運よく2回目の送金は免れたのです。

その1年後の2020年初め、香港にある日系企業の支店長が、音声詐欺の被害に遭い、最大3,500万ドルが盗まれたとフォーブス紙が伝えています。電話の相手は、UAEにある親会社の取締役を名乗り、極秘の買収案件のために3,500万ドルの送金を承認してほしいと伝えました。さらに支店長は、その手続きをするために雇われたマーティン・ゼルナーという弁護士からメールが届くはずだと言われ、メールを開いてみると、受信トレイには親会社の取締役と弁護士からのメールが届いていました。支店長自身、電話口の声に聞き覚えがあり、完全に信じ込んでしまい、送金を開始しました。なお、在香港日本国総領事館は、先週13日にも電話詐欺に関する注意喚起を行っており、日系企業を狙った音声詐欺の未遂事件が現在でも続いているということです。

詐欺師が、どのソリューション(オープンソース、有料、あるいは独自)を使って音声を偽装したのかは不明ですが、上記のいずれのケースでも、企業は明らかにディープフェイク詐欺の被害に遭いました。

今後の見通し

ディープフェイクが今後どのように進化し脅威になりうるのでしょうか。専門家の意見は分かれています。現在、ディープフェイク技術のほとんどは大企業が所有しています。しかし、DALL-EMidjourneyStable Diffusionなど、一般の人々にも馴染みのある人気生成モデルや大規模な言語モデル(ChatGPT も?)の進化でも顕著に示されているように、近い将来、同様のテクノロジーがパブリックドメインに登場する可能性があります。これは、最近のGoogle内部からの情報リークでも裏付けられています。インターネット巨大企業の代表者らは、オープンソリューションをめぐるAI競争に負けると懸念しているのです。そうなれば、詐欺目的などで音声ディープフェイクの使用が増加するのは明らかです。

ディープフェイクの開発において、最も有望なステップはリアルタイム生成です。これによってディープフェイク(およびそれに基づく詐欺)が爆発的に増えるのは確実です。顔も声も完全に偽物の人とビデオ通話をすることなど想像できますか?かし、このレベルのデータ処理には、大企業のみが利用できる膨大なリソースが必要なため、最高の技術は非公開のままとなり、詐欺師はプロの技術に追いつくことはできないでしょう。高品質の目安は、ユーザーが偽物を簡単に見分ける方法を学ぶ上でも役に立ちます。

攻撃から身を守るには

さて、最初の質問に戻りましょう。あなたは聞こえる声を信用できますか?常に猜疑心を抱き、友人や家族と使う秘密の合言葉を考え出すことまではしなくてもよいでしょう。ただし、より深刻な状況では、こういう猜疑心があなたを救うこともあります。ディープフェイク技術が詐欺師の手に渡った場合、将来恐るべき武器に変貌する可能性があります。しかし、準備を整え、偽造から保護するための信頼できる方法を構築する時間はまだあります。ディープフェイクについては、すでに多くの研究が行われており、大企業はセキュリティ ソリューションを開発しています。実際、動画のディープフェイクに対する方法については、すでにここで詳しく説明しました。

現時点では、AIによるディープフェイクに対する保護対策はまだ始まったばかりです。ディープフェイクは、高度なソーシャルエンジニアリングの一種にすぎないと念頭に置いておくことが重要です。このような詐欺に遭遇するリスクは低いですが、実際事件が発生していることは確かなので、あらゆる手口を知っておく価値があります。少しでも怪しいと思う電話がかかってきたら、音に注意してください。不自然に単調だったり、わかりにくかったり、異音が聞こえたりしていませんか?情報は他の手段で常に再確認してください。詐欺師が最も得意なのは、標的を急かし、パニックに陥れることだという点をお忘れなく。

 

ヒント