Kaspersky Dailyでは少し前に、ネゲヴ・ベン=グリオン大学のモルデカイ・グリ(Mordechai Guri)氏と同僚たちが考え出した、インターネットに接続していない上にネットワークから物理的に切り離されたデバイスから情報を取り出す方法についての記事を掲載しました。Black Hat USA 2020カンファレンスでは、同大学からまた別の研究者が、関連するテーマの講演を行っています。ベン・ナッシ(Ben Nassi)氏は、視覚による盗聴の方法「Lamphone」について発表を行いました(リンク先は英語)。
この記事ではLamphoneの仕組みについて説明しますが、その前に少し寄り道をして、この問題のこれまでの歴史を振り返るところから始めましょう。
目で見て盗聴する方法
離れたところから音を聞き取る「視覚的な方法」としてよく知られているのは、レーザーマイクロフォンです。
会話を盗聴するには、会話が交わされている部屋にある物体の表面(一般的には窓ガラス)に、人間の目には見えない赤外領域のレーザー光を当てます。レーザー光は物体の表面で反射して、受信装置に返ってきます。物体の表面で音波が振動を作り出し、その振動によって、反射したレーザー光の動きが変化します。受信装置はその変化を記録し、最終的にはそれが音に変換されて、会話が再生されるのです。
この技術は冷戦時代から使われており、多くのスパイ映画に登場しています。そんな描写の出てくる映画を見たことがある人もいるかもしれません。レーザーによる盗聴が可能なデバイスを製造する企業は複数あり、500mの有効範囲をうたうものもあれば、有効範囲1,000mをうたう企業もあります。レーザーによる盗聴が心配な皆さんには、心安まるお知らせが2つあります。まず、レーザーマイクロフォンは非常に高額です。もう一つ、レーザーマイクロフォンの販売先は政府機関に限られます(企業側はそう主張しています)。
とはいえ、盗聴時にはレーザーマイクロフォンの能動的な性質が重大な欠陥となる、とナッシ氏は述べています。この形での盗聴を成功させるには、物体の表面をレーザー光で積極的に「照らす」必要があるので、赤外線検出器があれば検出可能です。
数年前に、マサチューセッツ工科大学の研究グループが「視覚によって音声を聞き取る」別の方法を発表しましたが(リンク先は英語)、こちらは完全に受動的な方法です。考え方としてはほぼ同じで、物体の表面に音波が振動を作り出し、その振動を記録するのです。
振動を記録するために、研究者らはフレームレートが数千にもなる高速なカメラを使用しました。フレームを比較することで(これにはコンピューターの力を借ります)、連続したビデオフレームから音を再現することができました。
ただし、この方法にも大きな欠陥があります。高速カメラで大量に取得された視覚的情報を音に変換するには、桁外れの演算リソースが必要になるのです。研究グループは超高性能なワークステーションを使用しましたが、それでも5秒の動画を分析するのに2、3時間を費やしました(英語)。リアルタイムで会話を聞き取るのには、明らかに適していません。
Lamphoneの仕組み
ナッシ氏のチームは、「視覚による盗聴」の新たな手法を編み出しました。「Lamphone」と名付けられたこの手法では、音が作り出した振動を捕らえるのに電球を使います(呼び名の頭に「Lamp」と付いているのはこのためです)。
電球は誰でも入手できるだけではなく、光を発するという特性も持っています。そのため、電球の振動を利用すれば、映像内のごくわずかな変化を分析するのに演算リソースを無駄使いする必要はありません。必要なのは、高性能な望遠鏡を電球に向けること、それだけです。望遠鏡は、電球からの光束を電子光学センサーに当てる役割を果たします。
さまざまな方向に向けて電球から発せられる光は、均一ではありません(興味深いことに、不均一さは電球の種類によっても異なり、白熱電球やLED電球ではばらつきが大きく、蛍光電球ではだいぶ小さくなります)。この不均一性があるために、音波によって作り出された電球の振動で光束の強度がわずかに変化し、それを電子光学センサーが捉えます。小さな変化ですが、記録するには十分です。研究者たちは、記録された変化に対して単純な変換を何度も行い、「電球の記録」から音を再生することに成功しました。
この方法をテストするにあたり、研究チームは実験用の部屋の窓から25m離れたところにある歩道橋に聞き取り用の機器類を設置し、室内でスピーカーを通して音を流しました。研究チームは室内の電球に望遠鏡を向け、光の振動を記録し、音声に変換することができました。
その音声は十分に内容が分かるほどでした。たとえば、楽曲認識アプリのShazamは、テストに使われたのがビートルズの『Let It Be』とコールドプレイの『Clocks』であるのを聞き取りましたし、Googleの音声認識サービスは、ドナルド・トランプ(Donald Trump)氏の選挙演説のセリフを正しく聞き取って書き起こすことができました。
Lamphoneは現実の脅威となるか
ナッシ氏のチームは、実際に機能する「視覚による盗聴」方法を編み出すことに成功しました。さらに重要なことに、この方法は何かアクションを起こすのではなく「見ている」だけであるため、探知用の機器で見つけられません。
また、マサチューセッツ工科大学の研究チームが考え出した方法とは異なり、Lamphoneによって記録されたデータを音声に戻すための演算は極めてシンプルです。音声への変換処理に多大な演算リソースは必要ないので、リアルタイムでの盗聴も可能です。
ただし、テスト時に室内で流された音のボリュームが非常に大きかったことをナッシ氏は認めています。したがって、現時点では、この実験の結果は主に学術的興味を満たすためのものであると言えるでしょう。一方で、この手法を使えば「光による録音」をシンプルな処理で音声に変換できるという事実を軽視すべきではありません。この手法は、たとえば機械学習のアルゴリズムを使用することで、さらに精度が磨かれる可能性があります。なお、機械学習はこの種のタスクに秀でています。
研究者たちは今のところ、この手法が実用化される可能性について、「非常に困難」でもなく「簡単」でもなく、その中間のどこかに位置すると評価しています。しかし、電子光学センサーが読み取ったデータを音に変換する高度なアルゴリズムを利用可能であれば、この手法が実用化に近づいていく可能性があるとも予測しています。