メタデータが漏らす情報

メタデータは、ファイルに「表示される」情報ではなく、ファイルに「関する」情報です。このメタデータが知らないうちに収集され、大きな問題になる場合も考えられます。

大企業や中小企業、政府機関、それから個人にとって、最も危険なITの脅威とは何でしょうか?

さまざまな答えがあるとは思いますが、何といっても情報漏洩です。では、漏洩しないようにするのが最も難しいのは、どんな情報でしょう?それは、多くの人が普段あまり意識しないデータです。

ほとんどの人が知らない、またはあまり深く考えたことのないデータ。それは「メタデータ」と呼ばれるものです。メタデータは、ファイルに表示される情報ではなく、ファイルに関する情報です。このメタデータによって、見られては困る情報が外に公開されてしまうことがあります。

文書のメタデータ

本題に入る前に、まずは言葉を定義しましょう。米国の法律では、メタデータを次の3種類に定義しています。

  1. アプリケーションメタデータ:文書の作成に使用したアプリケーションが、文書ファイルに追加するデータ。変更履歴やコメントなどの編集内容が保持されています。
  2. システムメタデータ:作成者名、ファイル名、ファイルサイズ、変更点など。
  3. 埋め込みメタデータ:Excelのセルに含まれる数式、ハイパーリンク、関連ファイルなど。画像ファイルに特有のEXIFメタデータも、このカテゴリに入ります。

メタデータの漏洩が引き起こす典型的なトラブルの例といえば、2003年に英国政府が発表したイラクの大量破壊兵器疑惑に関するレポートの事例があります。このレポートはDOC形式で公開されていましたが、レポート作成に関わった人々(厳密に言うと、過去10回分の編集を行った人々)に関するメタデータが含まれていました。そのため、このレポートの品質、信憑性、そして信頼性に対する疑問の声があがりました。

BBCの続報によると(英語記事)、英国政府はオリジナルのファイルに含まれるメタデータに気づき、PDF形式のレポートと差し替えました。PDFファイルの方が、メタデータの情報量が少ないためです。

2,000万ドル相当の(偽造)ファイル

メタデータ絡みの興味深いニュースといえば、このほかにも、2015年に米国の法律事務所Venableのもとに持ち込まれた一件があります(英語記事)。法律事務所であるVenableは、副社長が辞任したばかりという企業から相談を受けました。副社長が去ってまもなく、その企業は政府系企業との契約を競合に奪われたというのですが、競合企業にはその元副社長が再就職していました。

依頼主の企業は、企業秘密を不正利用して政府との契約を勝ち取ったとして、元副社長を告発しました。これに対し、被告人となった元副社長とその再就職先企業は、ある外国政府のために作成された、問題の契約と似た内容の提案書を証拠として提出しました。被告側が主張するには、その提案書は例の契約を米国へ提案する前に別のクライアントのために作成したものであり、元副社長と原告企業との間における非競争契約の侵害には当たらないとのことでした。

しかし被告側は、証拠ファイルのタイムスタンプが異常であることに気付いていませんでした。システムメタデータが示すところでは、このファイルが最後に保存されたのは、ファイルを最後に印刷した日時よりも前でしたが、専門家はそのようなことはあり得ないと指摘しました。Microsoft Wordの場合、最終印刷日時はアプリケーションメタデータに含まれる情報で、ファイル自体が保存されないと更新されません。つまり、文書を印刷しても、その後で文書を保存しなければ、新しい印刷日時はメタデータに反映されないのです。

また、この文書が偽造されたことを示すもう1つの証拠は、企業サーバー上でこの文書が作成された日時でした。この文書は、訴訟が裁判所に持ち込まれた後で作成されていたのです。被告側はさらに、.olm(Microsoft Outlook for Mac用の拡張子)ファイルの最終変更日時の改竄でも起訴されました。

最終的に、原告側には2,000万ドルの損害請求が認められ、被告側はさらに数百万ドルの制裁を科せられました。

隠れたデータ

Microsoft Officeファイルには、見えない情報を集めるのに適した機能が豊富に用意されています。たとえばWordの場合、テキストにコメントを付記することができますが、コメントの中には公にする予定のない補足情報が含まれている可能性があります。「変更履歴の記録」機能も多くの情報を保持しており、諜報に利用できます。この機能の[最終版]オプション(Wordのバージョンによっては[変更履歴/コメントなし]など名前が異なる)を選択すると、変更履歴は画面から消えますが、ファイル内部には残っています。

他にも、PowerPointの場合は「ノート」というものがありますし、Excelの場合であれば、非表示になっている列があるかもしれません。つまり、画面上に表示されなくなっても、データが消えたわけではないのです。

要するに、適切なやり方を知らずにデータを隠そうとしても、うまくいかないのは当然です。そのよい例が、CBSLocalに公開された裁判文書です(英語)。この文書は、米国政府とロッド・ブラゴジェビッチ(Rod Blagojevic)元イリノイ州知事との間で争われた裁判に関するもので、2010年にバラク・オバマ氏に対する召喚状を発行するよう裁判所に求めた申立書でした。

見てのとおり、この文書は一部が黒塗りされています。ところが、この部分をコピーしてテキストエディターに貼り付けると、塗りつぶされた部分も含めてすべて読むことができます。

PDFの黒塗りは、情報が印刷されないようにするには有効だが、デジタル形式の文書では簡単に中身が読めてしまう

ファイルの中のファイル

文書内に埋め込まれた外部ファイルのデータには、また少し違った情報漏洩の危険があります。

リアルな例をお見せするために、米国行政機関のWebサイトから、米国教育省の2010年度税制報告書をサンプルに選びました。

このファイルはインターネットからダウンロードしたものです。読み取り専用になっていましたが、この制限はパスワード入力の必要もなく解除できました。文書の41ページに、見たところ特に変わったところのないグラフがあります。このグラフのコンテキストメニューから[データの編集]を選択してみると、埋め込まれたMicrosoft Excelのソースファイルが開き、ソースデータをすべて確認することができました。

レポートはWordファイル形式。このグラフ以外のグラフのソースデータも大量に含むExcelが埋め込まれている

このような埋め込みファイルには、さまざまな情報が含まれている可能性があります。場合によっては、大量の個人情報が含まれているかもしれません。この文書を公開した人は、見えていないデータにアクセス可能かもしれないとは思いもしなかったに違いありません。

メタデータを取得する

ElevenPathsのFOCA(Fingerprinting Organizations with Collected Archives)などのソフトウェアを使うと、興味のある組織の文書からメタデータを収集するプロセスを自動化できる可能性があります。

FOCAは、指定された形式(.docxや.pdfなど)の文書を探し出してダウンロードし、メタデータを分析し、組織に関するさまざまな情報(組織で使用されているサーバー側のソフトウェアやユーザー名など)を突き止めることができます。

なお、このようなツールを使ってWebサイトを分析することは、調査研究の目的であっても、Webサイト所有者に深刻に受け止められ、サイバー犯罪と見なされる可能性があります。

理由はあるものの、不可解な仕様

メタデータには、ITのエキスパートでも知らないかもしれない仕様がいくつかあります。WindowsのNTFSファイルシステムを例にとってみましょう。

仕様1. あるフォルダーからファイルを削除し、すぐにこのフォルダー内で、削除したファイルと同じ名前で新しいファイルを保存すると、新しいファイルの作成日時は、削除したファイルの作成日時と同じになる。

仕様2. NTFSでは、ファイルへの最終アクセス日時もメタデータとして記録している。ただし、ファイルを開き、ファイルのプロパティ画面で最終アクセス日時を確認しても日時は変わらない。

こうした不可解な仕様は単なるバグと思われるかもしれませんが、実は理由があってこうなっています。仕様1はトンネリングのことで、ソフトウェアの下位互換性に対応するために必要な機能です。既定では、トンネリングの影響は15秒間続きます。この期間中に保存された新しいファイルは、直前のファイルに関連づけられていた作成日時を引き継ぎます。なお、この持続時間はシステム設定から変更可能で、レジストリ内でトンネリングを完全に無効化することも可能です。私の場合は既定の間隔で十分だったようです…実際、普通に仕事をする中で、1週間のあいだに2回もトンネリングに遭遇しました。

仕様2にも理由があります。MicrosoftはWindows 7以降、パフォーマンス向上の目的で、最終アクセス日時の自動更新を無効にしました。この機能は、レジストリの設定で有効にできます(英語記事)。ただし、有効にしても、時間を遡ってタイムスタンプを訂正することはできません。NTFSは正しい日付スタンプを保管していないためです(シンプルなディスクエディターで確認済み)。

コンピューターフォレンジックのエキスパートが、この仕様を知っているといいのですが。

ところで、ファイルのメタデータは、既定のOSやネイティブアプリ、特別なソフトウェアを使えば変更することができます。つまり、メーラーのログやサーバーのログといった補足情報を伴わないかぎり、メタデータを裁判で証拠として使うことはできません。

メタデータとセキュリティ

Microsoft Officeに組み込まれている「ドキュメント検査」(Word 2016では、[ファイル][情報][ドキュメント検査])という機能を使うと、ファイルに含まれるデータを確認できます。このデータは、必要に応じてある程度まで削除できますが、(前述の教育省のレポートの中にあるような)埋め込みデータは削除できません。グラフや図を挿入するときは注意する必要があります。

Adobe Acrobatにも、ファイルからメタデータを削除するための似たような機能があります。

もちろん、漏洩を完全に阻止するには、責任感があり、注意深く、十分に訓練を積んだスタッフを揃えることが理想的です(現実的には難しいかもしれませんが)。

ヒント