カスペルスキー製品が有効性を示しているのは、私たちが「真のサイバーセキュリティ」と呼ぶものの根幹を成す「HuMachineインテリジェンス」という概念を採用しているからである、と私たちは考えています。HuMachineインテリジェンスとは、ビッグデータ、機械学習、当社アナリストの専門技能という3つの基本要素を融合したものです。具体的にはどのようなものか?技術的に込み入った話にならないように解説したいと思います。
ビッグデータと脅威インテリジェンス
ビッグデータというと、膨大な量の情報がどこかに保存されているように聞こえるかもしれませんが、そうではありません。ただのデータベースではなく、大量のデータを素早く処理して脅威の情報を導き出す技術の組み合わせです。こうしたデータは、無害なオブジェクト、悪意あるオブジェクト、悪意ある手段に利用されるかもしれないオブジェクトにかかわらず、あらゆるオブジェクトに結び付いています。Kaspersky Labにとって「ビッグデータ」とは、第1に膨大な数の悪意あるオブジェクトの集合体を意味します。第2に、新規の悪意あるオブジェクトと世界中のさまざまなサイバー脅威に関する多面的なデータを絶えず配信している、分散型のKaspersky Security Network(KSN)を含みます。第3に、ビッグデータを処理する種々さまざまな分類ツールを指してもいます。
悪意あるオブジェクトの集合体
当社は20年以上にわたりコンピューターセキュリティ事業に取り組み、その間膨大な数のオブジェクトを解析してきました。これらのオブジェクトの情報は、当社のデータベースに安全に保存されています。当社が「オブジェクト」と言うとき、この言葉が指すのはファイルやコードの集まりだけでなく、Webアドレス、証明書、正規のアプリケーションおよび不正なアプリケーションの実行ログも含みます。こうしたデータは「危険」「安全」などのラベル付けが為されるほか、オブジェクト間の関係性についての情報も合わせて保存されます。たとえば、あるファイルはどのWebサイトからダウンロードされたのか、そのWebサイトから他にどのようなファイルがダウンロードされたか、などです。
Kaspersky Security Network(KSN)
KSNは、当社のクラウドセキュリティサービスです。KSNには、最新の脅威をクライアント側で素早くブロックする機能があります。と同時に、検知された脅威に関する匿名化済みメタデータをクライアント側からクラウドに送信し、グローバルレベルのセキュリティ強化に加わることもできます。当社では検知された脅威のひとつひとつをあらゆる角度から検証し、その特性を脅威データベースに追加します。データベースに登録されると、該当の脅威だけでなく類似する脅威も正確に検知されるようになります。このようにして、当社のデータベースは最新のデータをリアルタイムで受信しています。
分類ツール
分類ツールは、収集した情報を処理して、先に述べた悪意あるオブジェクト間の関係性を登録するための社内技術です。
機械学習テクノロジー
機械学習とは何か、Kaspersky Labでどのように活用されているのかを説明するのは、簡単なことではありません。当社では、多層型アプローチ(英語記事)を採用しています。このため、複数のレイヤー、複数のサブシステムで機械学習のアルゴリズムが使用されています。
静的検知
当社のシステムは、ただちに解析と分類(危険か否か)が必要なオブジェクトを1日に何十万単位で受け取ります。10年以上前の段階で、自動化しなければ管理がおぼつかないことを私たちは認識していました。最初の作業は、不審なファイルが、登録済みの悪意あるオブジェクトと似ているかどうかの判定です。この判定に、機械学習を利用したのです。コレクション全体を解析し、新しいファイルが取り込まれると、コレクション内で最も近いオブジェクトをアナリストに通知するアプリケーションが開発されました。
しかし、ほどなくして、他の悪意あるオブジェクトと似ているかどうかを把握するだけでは十分でないことが明らかになりました。システム自体が判定を下す技術が必要でした。そこで開発されたのが、決定木に基づくテクノロジー(英語記事)です。悪意あるオブジェクトの膨大なコレクションを使ってトレーニングされた同テクノロジーは、新規ファイルが危険なファイルであることを明確に示す基準や特定の組み合わせを、数多く発見しました。ファイルを解析する際には、数理モデルがアンチウイルスエンジンに次のような「質問」をします。
- ファイルは100 KB以上か?
- そうである場合、ファイルは圧縮されているか?
- そうでない場合、セクション名は人間が付けた名前か、でたらめな文字列か?
- 前者の場合、……
質問は、延々と続いていきます。
これらの質問にすべて回答すると、アンチウイルスエンジンは数理モデルから判定を受け取ります。判定は「安全なファイル」か「危険なファイル」のいずれかです。
ふるまいの数理モデル
多層型セキュリティの原則に従い、当社の数理モデルは動的検知にも利用されています。実のところ、数理モデルは、実行ファイルがまさに実行されたときにふるまいを解析できるのです。静的検知の数理モデルに適用されるのと同じ原則に従って、数理モデルを構築、トレーニングすることが可能で、「トレーニング素材」としては実行ログファイルを使用します。ただし、大きな違いが1つあります。実際の状況では、コードの実行が終わるまで待つ余裕はありません。最小限のアクションを解析した後に、判定を下す必要があります。現在のところ、このディープラーニングに基づくテクノロジーのパイロット版は、優れた結果を出しています。
人間の専門技能
機械学習の専門家たちは、数理モデルがどんなに賢くなっても、人間は必ずこの仕組みを回避できるようになるであろうという点で同意しています。特に、その人が創造的でテクノロジーの仕組みを見て取れる人である場合や、数々の実験やテストを実施する十分な時間がある場合は、なおさらです。そこで、第1に数理モデルの各パーツがアップデート可能であること、第2にインフラが完璧に動作すること、第3に人間がロボット(訳注:機械学習を担う各種プログラムのこと)を監督することが必須です。当社では次のような対応を取っています。
アンチマルウェアリサーチ部
約20年前、当社のアンチマルウェアリサーチ部(Anti-Malware Research:AMR)は自動システムを使わずに活動していました。今では、リサーチャーがトレーニングしたエキスパートシステムで大半の脅威を検知しています。時には、はっきりとした判定を下すことができなかったり、悪意あるオブジェクトだと見なしても既知のファミリーに結び付けることができなかったりします。そんなときは、勤務中のAMRアナリストに警告を送り、さまざまな指標を示して、アナリストが最終判断を下せるようにしています。
検知手法分析グループ
AMR内には、検知手法分析グループ(Detection Methods Analysis Group)という研究チームがあります。2007年に発足し、特に機械学習システムを研究しているチームです。今のところ、部門長だけがベテランのウイルスアナリストで、他の社員はデータサイエンティストです。
グローバル調査分析チーム(GReAT)
最後に、グローバル調査分析チーム(Global Research and Analysis Team:GReAT)について触れておきましょう。GReATのリサーチャーは、極めて複雑な脅威を調査しています。具体的には、世界中のAPT、サイバースパイ活動、マルウェアの大流行、ランサムウェア、地下サイバー犯罪のトレンドなどです。GReATがサイバー攻撃のテクニック、ツール、戦略に関する優れた専門知識を備えているおかげで、複雑な攻撃を阻止する新しい手法を開発することが可能となっています。
カスペルスキー製品の開発に関わるテクノロジーや部門は、まだ半分もご紹介できていません。多くのエキスパートや機械学習の多様な手法が一体となって、最適な保護を実現していますが、今回は主にHuMachineインテリジェンスについて取り上げました。