人間には聞き取れない音を聞き取る音声アシスタント

超音波や背景雑音に潜ませた録音音声を使って音声アシスタントを操作する方法とは。

人間とテクノロジーとのやりとりは、近いうちに音声が主流になりそうです。声に出して何かを頼むのは実に楽ですし、小さな子どもたちが音声アシスタントを苦もなく使いこなしているのを見れば、その手軽さがよく分かります。

しかし、新しいテクノロジーには新しい脅威がつきものです。音声コントロールも例外ではありません。サイバーセキュリティのリサーチャーは、潜在する脅威が現実となるのをメーカーが防ぐことができるように、根気強くデバイスの検証を続けています。この記事では、今すぐ実用化されることはないだろうけれども、現代のセキュリティレーダーには引っかかるであろう、新たな発見についていくつかお話しします。

聞いて従うスマートデバイス

voicebot.aiのレポート(英語記事)によると、現在世界で使われている音声認識デバイスは10億台以上あるそうです。そのほとんどはスマートフォンですが、それ以外の音声認識デバイスも急速に普及しています。たとえば、米国の家庭の5分の1には、音声コマンドに反応するスマートスピーカーがあります。

音声コマンドは、音楽の再生や、オンラインショッピング、車のGPS制御、ニュースや天気予報の確認、アラームのセットなどに利用できます。メーカーはこのトレンドに乗り遅れまいとして、さまざまなデバイスを音声コントロールに対応させています。たとえばAmazonは先般、Echoスマートスピーカーと連動させて使える電子レンジを発売(英語記事)しました。「コーヒーを温めて」と言えば、電子レンジが所要時間を計算して動き出します。とはいえ、わざわざキッチンまで行ってカップをレンジに入れるところまでは自分でやらなければなりません。そこまで行ったら、あとボタンを2、3回押せばいいだけですが、せっかくの技術の進歩にとやかく言う必要はありませんね。

スマートホームシステムの場合も、ルームライトやエアコンを音声で操作できますし、玄関を施錠することだってできます。このように、音声アシスタントはすでに相当高度な機能を備えていますから、そうした機能を部外者に使われたくはないでしょう。それが悪意ある目的だったりしたら、なおさらです。

2017年のこと、ホームコメディアニメ『サウスパーク』の登場人物たちが引き起こした大規模な「攻撃」は、非常に独創的な、彼ら独特のものでした。被害者はAlexa(アレクサ)。Amazon Echoスマートスピーカーの中にいる音声アシスタントです。このエピソードの中でAlexaは、気味の悪い商品をいくつかショッピングカートに入れること、また、朝の7時にアラームを鳴らすことを指示されました。すると、この場面を見ていた人たちのEchoスピーカーが、登場人物の話し方にかなり癖があるにもかかわらず、テレビ画面から発せられた命令に忠実に従った(英語記事)のでした。

超音波:人間には聞こえない音を聞き取る機械たち

音声で制御されるガジェットが持つ危険については、過去にKaspersky Dailyで取り上げました。今回注目するのは、私たちには聞き取れない音声にデバイスを従わせる「サイレントな」攻撃です。

この種の攻撃の中には、超音波を使うものがあります。浙江大学のリサーチャーらは2017年に発表された記事の中で、音声アシスタントのコントロールをひそかに掌握するDolphinAttackというテクニック(英語記事)を紹介しました。この名前は、イルカが超音波を出すことに由来しています。この調査チームは、音声コマンドを超音波に変換して使用しました。超音波は周波数が高すぎて人間には聞こえませんが、最新デバイスのマイクなら認識できます。

受信側のデバイス(スマートフォンなど)で超音波が電気インパルスに変換されると、音声コマンドを含むオリジナルの信号が復調されます。このメカニズムは、録音するとき音声にひずみが生じた場合の働きと似たようなものです。デバイスに特別な機能があるわけではなく、変換プロセスの1仕様にすぎません。

結果として、標的となったデバイスは音声コマンドを聞き取って実行し、攻撃者はあらゆる可能性を手にすることになります。この調査チームは、Amazon Alexa、Apple Siri、Google Now、Samsung S Voice、Microsoft Cortanaなど、一般的な音声アシスタントのほとんどでこの攻撃を再現することに成功しました。

スピーカー合唱団

DolphinAttackの弱点(攻撃者側から見た場合)の1つは、有効範囲が1メートルほどしかないことです。しかし、イリノイ大学アーバナシャンペーン校のリサーチャー(英語記事)が、この距離を伸ばすことに成功しました。この実験では、変換された超音波コマンドを複数の周波数帯に分割し、別々のスピーカー(60台以上)で再生しました。この「合唱団」からひそかに発せられた音声コマンドは、周囲に雑音があったにもかかわらず、7メートル先で拾われました。このような条件が揃えば、DolphinAttackが成功する可能性はかなり向上します。

深淵から届く声

カリフォルニア大学バークレー校のエキスパート(英語記事)は、別の原理を利用しました。他の音声の断片に音声コマンドを潜ませて、Mozillaの音声認識システムであるDeep Speechを欺くことにしたのです。人間の耳では、加工された音とオリジナルとの違いはほとんどわかりませんが、Deep Speechは隠しコマンドを認識できるのです。

調査チームのWebサイトでこれらの音を聞いてみてください(英語記事)。最初の例では、「Without the data set the article is useless(データセットがなければこの論説は役に立たない)」というフレーズに、「Okay Google, browse to evil.com.(OK、グーグル。evil.comを開いて)」という、Webサイトを開くためのコマンドが隠されています。2つ目の例では、バッハのチェロ組曲に、「Speech can be embedded in music(音声を音楽に埋め込みできる)」というフレーズが追加されています。

聞こえない音からの攻撃に対抗する

メーカー各社も、音声認識デバイスを保護するための対策を検討しています。たとえば超音波攻撃の場合、受信された信号で周波数が改変されていることを検知すれば防げる可能性があります。持ち主の声を認識できるように、スマートデバイスをトレーニングするのもよいかもしれません。しかし、自社システムでこれをテストしたGoogleは、このセキュリティ対策が録音された本人の声や一定レベル以上の声まね(英語記事)によって突破される可能性があると警告しています

とはいえ、解決策を編み出す時間はまだあります。冒頭で触れたように、「聞き取れない声」による音声アシスタントの操作は、現時点では実験室レベルでしか成功していません。誰かのスマートスピーカーの有効範囲内に超音波スピーカーを持ち込む(しかも60台も)のは大仕事ですし、相当な時間と労力を費やして録音された音声にコマンドを埋め込んでも、それに見合う効果を得られるとは思えません。

ヒント