コンテンツアナリストの一日

2014年1月27日

Kaspersky Labには「コンテンツアナリスト」と呼ばれる職種があります。簡単に説明すると、コンテンツアナリストの仕事はコンテンツを選別(フィルタリング)するデータベースを作成することで、そのデータベースがカスペルスキー製品に使用されます。このコンテンツフィルターは、個人向けと法人向けの両方のセキュリティ製品に含まれています。コンテンツフィルタリングを担うモジュールは、個人向け製品では保護者による管理、法人向け製品ではWeb管理という名称です。保護者による管理に実装されたツールを使うことで、お子さんが不適切なWebサイトにアクセスするのを制限することができます。Kaspersky Labはそのために、各サイトがどのカテゴリに分類されるのか、どんなコンテンツが格納されているのかを把握しなければなりません。ここで私たちのデータベースが使われるのです。

content

フィルタリングデータベースをすべて人間の手で入力するのは、どうやら不可能なようです。Googleによれば、インターネットには現在、約150億のWebページがあるそうです。そのため、スキャンの大部分はロボットによって実行されます。ロボットは当社のクラウドKaspersky Security Networkを使用してインターネットコンテンツを分析し、各Webサイトを自動的に判定します。クラウドで行われた判定は、モバイルセキュリティソリューションで使用されますが、もちろん他の製品でも、コンテンツフィルタリングのコンポーネントに使用されます。コンテンツアナリストの仕事は、ロボットがインターネット上のコンテンツを適切に分類できるように教えることです。ロボットは、Webページやハウスキーピングデータ、さらには画像に含まれるキーワードや複合キーワードを評価し、そのページのコンテンツが特定のカテゴリに該当するかどうかを判断しなければなりません。Webサイトのコードに「オンラインポルノを見る」「無料ポルノ」といった複合キーワードや、裸の画像が大量に含まれているような場合、ロボットは一連の基準に基づいて、そのリソースを「ポルノ、性的」に分類します。

コンテンツアナリストの仕事は、ロボットがインターネット上のコンテンツを適切に分類できるように教えることです

Webアナリストは業務の一環として「不適切なコンテンツ」を見なければならないときもあります。さまざまなカテゴリのコンテンツを扱っていますが、中には、以下のように非常に危険なカテゴリもあります。

  • 薬物
  • 残酷、暴力
  • 武器
  • ギャンブル
  • 過激な表現

これらのカテゴリは原則、保護者による管理やWeb管理を有効にすると、管理者によって既定で制限対象に設定されます。

コンテンツは千差万別です。「残酷、暴力」カテゴリの担当は、精神的な抵抗力があり、特定の感情をぬぐい去ることができ、いい意味でひねくれた人にしかつとまりません。このような性格がコンテンツ分析に求められることは、面接のごく最初の段階で候補者の方にはっきりお伝えしています。

しかし、私たちの仕事はそれだけではありません。仕事のプロセスや、インターネット上の極めて悪質なコンテンツを検索することの特徴について、詳しく説明するのは難しいのですが、一日の業務はだいたい以下のようなものです。

朝のメールチェック

  • 個人的には、これをやることで仕事モードに気持ちを切り替えて、一日の作業量を把握しています。

進捗会議

  • 私たちのチームは毎朝11時に会議室に集まって、前日に完了したすべての仕事と、その日の仕事の範囲について話し合います。これは仕事のプロセスにおいて不可欠な部分であり、皆の気持ちを引き締め、チームで仕事をする上でプロセスの透明性を確保するのに役立っています。

コーヒーブレイク

  • 確かに仕事は大切ですが、朝の一杯なしでは仕事になりません!

ユーザーからの問い合わせ

  • 当社の技術サポートには、コンテンツフィルタリングモジュールによってWebサイトが不適切にブロックされているという問い合わせが、毎日何十件も寄せられています。このようなリクエストはコンテンツアナリストチームの担当となり、問い合わせへの対応、分析、ユーザーへのフィードバックを行います。また、製品のアンチバナー機能の誤動作といった問題にも対応しています。公式には、1つのリクエストへの対応には最大で3営業日かかりますが、やはり早いにこしたことはありません。

コンテンツカテゴリに関する作業

  • コンテンツアナリストの業務の大部分は、新しいカテゴリの作成と既存のカテゴリのサポートです。現在、15のカテゴリと7つの言語がサポートされています。そのため、コンテンツアナリスト職に応募される方にとって最も重要な基準は、英語に加えて第二言語が堪能であることです。そのため、文献学や言語学の学位を持っている方、そしてもちろん、分析的思考能力をお持ちの方は大歓迎です。要するに、「文系にも理系にも通じている」人でなければなりません。なかなかいないのですが。

ライブテスト

  • ボットはコンテンツを分類するとき、コンテンツアナリストが作成しサポートしているデータベースを使用します。もちろん、このデータベースはリリースされる前に何度もテストされます。その中でも特に重要なのは、実在する人気Webサイトを使ったライブテストです。このテストは毎日実施されます。世界で最も人気の高いWebサイトのリストが毎朝作成され、そのうち前回のテストリストに含まれていないサイトが、アナリストに送られて分類されます。アナリストは新しいサイトを判定し、テストを手作業で更新します。後者のプロセスは、ボットがWebサイトに割り当てたカテゴリが、アナリストの判定と一致していることを確認するためのものです。Webサイトのコンテンツは変わることがあるため、このテストはこれからもずっと実施していかなければなりません。原則、ライブテストは1日に3回(朝、昼、夕)、交代で実施しています。

教育

  • この部門の社員は、子供たちをインターネット上の不適切なコンテンツから保護する分野でよく知られたエキスパートです。記事やブログを執筆することもあれば、インタビューを受けることもあり、多くのカンファレンスに講演者として招かれています。
  • しかし、数多くの記事を執筆し、講演を行い、インタビューでお話ししているにもかかわらず、子供を不適切なコンテンツから守ることは今でも注目の話題です。

確かに、不適切なコンテンツが含まれるリソースを探す手段は無数にあります。保護者による管理やWeb管理さえあれば万事解決というわけにはいきませんが、私たちは防御を体系化するために必要なツールを提供することで、ユーザーやその家族、同僚をインターネット上の不適切なコンテンツから保護できるよう全力を尽くしています。