ビッグデータ

ビッグデータの問題点に今すぐ対応を

近年、ビッグデータ技術の採用が進んでいますが、なんとなく恐い面があるという話も聞かれるようになりました。ビッグデータが抱える問題点を考えます。

Alex Drozhzhin
2016年4月18日

ここ数年、ビッグデータについてさまざまな議論が行われています。このテクノロジーがもたらす素晴らしい可能性を中心とした議論がほとんどですが、これとは別に、ビッグデータを利用することの恐ろしさについても論じられるようになっています。ビッグデータの素晴らしさは誰もが認めるところですが、新しいテクノロジーは何らかの問題を抱えているものです。今回の記事では、ビッグデータを導入すると、どんな問題が起きる可能性があるのか見ていきましょう。

プライバシーなどない！

ビッグデータに潜む問題について考えたとき、最初に、そして往々にして最後に思いつくのがプライバシーです。

名は体を表すというように、ビッグデータは膨大な情報の収集にかかっています。情報がプライベートであればあるほど、明白でない結論が導き出される可能性があります。つまり、プライベートな情報は、かくも偉大な「ビッグデータマジック」の魔法の粉なのです。

この魔法の粉はしょっちゅうばらまかれ、世の中の片隅に紛れ込んでいます。しかも、ただ紛れ込んでいるだけではありません。たくさんの小さな問題が複雑に絡み合い、密接に関係しあっているのです。

今日は「Data Privacy Day」。データ流出は、データを流出された個人だけでなく、流出させた企業にもダメージを与えます。2014年の事例を元に見ていきます。 http://t.co/ZG1eGWGdNU pic.twitter.com/0LB6Im5FmF

— カスペルスキー公式 (@kaspersky_japan) January 28, 2015

科学の産物（いや、それほどでも…）

ビッグデータソリューションは科学とみなされています。しかし、問題はアルゴリズムが実はただの機械的作業ということ。これは大きな違いです。

物理とロケットに例えて考えてみましょう。物理は間違いなく科学です。物理はあらゆる面で理論的、実験的に研究、証明され、その後科学団体によってその内容が検証されています。これが科学の仕組みですから。

さらに、科学はいつでも万人に開かれています。なので、興味があれば、誰でも好きな時にあらゆる面で再検証できます。もし、深刻な欠陥が明らかになったり、新しい理論が登場したりしたときは、必ず、世界規模の科学団体で議論の対象となります。

ロケットは、ある物理法則に基づいた単なる機械的構造物です。そして、皆さんご存知のとおり、設計が不十分であれば、墜落しやすくなります。それから、条件が「悪かった」ときも。基本的に、どちらも同じことです。悪条件に対する設計が十分でなかったということですから。

さまざまな企業が、ビジネス目的で、人々の情報を記録し追跡しています。この膨大な情報（ビッグデータ）は有用でもあり、使われようによっては怖ろしいものでもあり。https://t.co/uK8YrQkG8e pic.twitter.com/LDBIthbrJF

— カスペルスキー公式 (@kaspersky_japan) September 7, 2015

数学には逆らえない。そうでしょう？

この誤解から生まれる結果の1つが、偽の権威です。人々はビッグデータアルゴリズムの判断を信頼できるものとして受け入れるしかなく、アルゴリズムには逆らえないのです。数学の専門家を除いては。彼らなら、あのビッグデータモデルやビッグデータアルゴリズムに能力がないことを証明できるかもしれません。ただし、それは調査できればの話です。でも、本当に調査できるのでしょうか？

ブラックボックスは真っ黒

数学の知識や経験が十分にあり、さまざまなアルゴリズムの具体的な仕組みを調査したいと思っても、アルゴリズムに対するアクセスが許可されることはめったにありません。理由は、ソフトウェアが市販品であり、ソースコードは独占所有物だからです。独占所有物の中身を見せるわけにはいかない、との断り書きがあり、研究者はアクセスを拒否されるのが普通です。「ご関心をお持ちいただきありがとうございました。今後ともよろしくお願いいたします」みたいな感じに。

数学者で人権活動家でもあるキャシー・オニール（Cathy O’Neil）氏は、講演『Weapons of Math Destruction』（数学破壊兵器）において、米国で教師の評価に使用されているアルゴリズム、付加価値モデル（英語）について次のように話しています。

「ニューヨークで高校を運営している友人は、このモデルのアルゴリズムを理解したいと思っていました。彼女は理数系の高校にいたので、理解できるかもしれないと考えたのです。彼女が教育省の担当者に情報を送ってくださいと頼むと、『いやいや、知りたいはずないでしょう、数学ですよ！』という答えが返ってきました」

「それでも彼女は粘り、ついにホワイトペーパーを手に入れて、私に見せてくれました。でも、漠然としすぎで使い物になりませんでした。そこで、私はソースコードを手に入れようと情報公開を請求しましたが、却下されました。後でわかったことですが、ウィスコンシン州のマジソンにあるシンクタンクがこのモデルを管理していて、そこが『モデルの内容は誰にも見せない』というライセンス契約を結んでいたのです」

「ニューヨーク市教育局には、このモデルを理解している人が誰もいないのです。教師は誰も自分のスコアを理解していませんし、スコアを上げることもできません。モデルの仕組みが明かされていないのですから」

何かを入力すると、何かが出力される

アルゴリズムがはっきりしないので、入力データもよくわかりません。ビッグデータソフトウェアのオペレーターは、アルゴリズムでどのデータが処理され、どのデータが処理されなかったのか、わかりません。ですから、アルゴリズムとオペレーターとでデータを二重に処理され、出力に2回も作用するデータが存在するかもしれません。反対に、重要なデータが処理されない可能性もあります。オペレーターは、あるデータがすでに結果に含まれていると思い込んでいたのに、実はアルゴリズムでもそのデータはまったく考慮されていなかったという場合です。

たとえば、警官が犯罪多発地区に入ったとします。警官のソフトウェアが発する警告によると、目の前に立っている男は55%の確率で強盗です。その男は怪しいスーツケースを持っていますが、この物体が確率の計算に考慮されているかどうか、警官にはわかりません。この男が強盗である確率はスーツケースの有無によって変わるのかどうかは、警官が判断する必要があります。

もちろん、入力データに間違いがあるかもしれないですし、正確な予測に不可欠な情報が含まれていないかもしれません。

近年のトレンドキーワードのひとつは「 #ビッグデータ」ですね。ビッグデータを活用したら、どんなことができるのでしょうか？ http://t.co/7oUgEEhSCE pic.twitter.com/R9liMLy9j3

— カスペルスキー公式 (@kaspersky_japan) April 10, 2015

コップに半分しか残っていない？それとも半分も残っている？

出力される情報もあまりクリアではなく、誤解を招く可能性があります。数字は時として主観的であり、同じ数字でも人によっては解釈がまったく異なることがあります。たとえば、「30%の可能性」とはなんでしょう？絶対に予測不可能な数多くの要因次第で、「たぶん、ダメだろう」から「おそらく、大丈夫」まで、解釈は多種多様です。

さらに悪いことに、この確率が競争の手段として使われることがあります。たとえば、ある人が何らかの罪を犯す確率が、深刻な高さでないとしても、状況によっては特定の人々を切り捨てるために使われることがあります。

たとえば、米国のセキュリティクリアランス（機密情報取扱者の人物調査）では、このようなアルゴリズムを使って、その人が情報を漏洩する可能性を予測しようとしています。仕事の応募者は多数にのぼるため、求人側はこの基準を踏まえ、気軽に求職者の足切りをします。漏洩の可能性がそれほど高くなく、平均をちょっと上回っているだけでも不適格とされるのです。

先入観はない？

ここまで述べてきた問題をすべて考慮すると、ビッグデータについて広く喧伝されてきた利点の1つ、「先入観にとらわれない」がまったく正しくないと言えるでしょう。人間が作ったアルゴリズムによる計算に基づいて人間が下した判断は、結局のところ、人間が下した判断なのです。先入観があるかもしれませんし、ないかもしれません。問題は、はっきりしないアルゴリズムとデータを使っているため、よくわからないという点です。また、アルゴリズムはソフトウェアにハードコードされていますから、変更もできません。

ダークサイドへようこそ、アナキン

また、予測アルゴリズムには、フィードバックループや自己充足的予言の影響を受けやすいという弱点もあります。たとえば、シカゴ警察が使用しているアルゴリズムは、犯罪を起こしそうな子供を選び出すことができます（英語記事）。その後、警察官はその子供の自宅を訪ねるなどの「監視」活動を始めます。その子はまだ何もしていないのに、警察から犯罪者扱いされていると感じ、犯罪者のようにふるまい始めます。そして、結局のところ、非行少年グループに入るのです。警察に不快な思いをさせられたというだけの理由で。

また、ホイットニー・メリル（Whitney Merrill）氏はChaos Communication Congress（32C3）での講演、『Predicting Crime in a Big Data World』（ビッグデータの世界での犯罪予測）でこのように述べています。「警官があるエリアを巡回しているときに、アルゴリズムから『あなたがこのエリアで強盗を発見する可能性は70%』だと言われたら、強盗を見つけようとするのでしょうか。『強盗を発見するかもしれない』と言われただけなのに」

抜け道なし

政府機関や営利団体がビッグデータアルゴリズムを好きで使っているわけではないとしても、「もう結構です、私は抜けます」というわけにはいきません。ビッグデータ調査の被験者になりたいかどうか誰も聞いてくれないですし、さらに悪いことには、調査する側が必ずしも、あなたが被験者になっていることを知らせてくるとは限らないのです。

誤解しないでください。これまでに説明した欠陥が、高度な予測アルゴリズムを否定するためのもっともな理由だと言っているのではありません。ビッグデータは急成長を続けることは明らかで、間違いなくこの世に居座り続けます。ただ、ビッグデータの問題について考えるなら、おそらく今こそチャンスです。今ならまだ修正できます。

アルゴリズムと入力データを透明化すると同時に保護を強化し、第三者の研究者にもソースコードにアクセスする権限を与え、法律を整備し、この「数学」的なもので実際に何が行われているか人々に知らせる必要があります。そして何より、私たちはこれまでの失敗から学ばなければならないのです。

バットマンの秘密基地がバレた？

バットマンことブルース・ウェインの自宅がGoogleストリートビューで見られるようになりました。どこから情報が漏洩したのでしょう？…という冗談はさておき、Webのプライバシーについては真剣に考えなければなりません。

ビッグデータの問題点に今すぐ対応を

プライバシーなどない！

科学の産物（いや、それほどでも…）

数学には逆らえない。そうでしょう？

ブラックボックスは真っ黒

何かを入力すると、何かが出力される

コップに半分しか残っていない？それとも半分も残っている？

先入観はない？

ダークサイドへようこそ、アナキン

抜け道なし

ビッグデータの怖さ

ビッグデータを活用した犯罪捜査

バットマンの秘密基地がバレた？

ヒント

実在するパスワードの約半数が、1分以内に解読可能

Kaspersky eSIM Storeで、海外旅行中のインターネット接続がより簡単に

App StoreとGoogle Playに侵入し、写真からデータを盗むトロイの木馬「SparkCat」

Telegramアカウントがハッキングされた場合の対処方法

個人向け製品

法人のお客様

サポート

カスペルスキーについて

Securelist

Eugene Personal Blog