2022年には、この年を特徴づけるようなさまざまな地政学上の出来事がありましたが、テクノロジーの分野において、まさに「AIの年」となりました。まず正直に申しますが、私はかなり最近まで、サイバーセキュリティにおけるAIについて聞かれても、実用の段階にないベイパーウェアとして見ていました。機械学習がさまざまな現実的用途に応用されていることは知っていましたが、情報セキュリティの業界では、AIは製品の売り込みにしか使われていませんでした。私にしてみれば、「AI搭載」というのは「既存の知識基盤やテレメトリがないので、代わりにヒューリスティックを考案しました」ということをベンダーなりに納得いくよう説明したに過ぎないものでした。私は今でも、実際の製品に本物のAIはほとんど搭載されていないケースが95%以上だと確信しています。しかし実際のところ、マーケティングチームが処理の一部にk平均法の演算を使用する製品に「AI」というラベルを貼り付けまくっている間に、真のAI分野が進化していました。
私がそれを思い知らされたのは、初めてDALL-E 2を試したときです。そしてその後すぐに、Midjourneyが使えるようになりました。どちらのプロジェクトも、テキストによる記述をもとに画像を生成することができ、すでにアートの世界で大きな騒ぎとなっていました。
そして2022年12月には、ChatGPTが、一大旋風を巻き起こしました。簡単に言ってしまえば、ChatGPTはチャットボットです。読者の方のほとんどがすでに試したのではないかと思いますが、もしまだであればぜひ使ってみてください。これまでチャットボットよりどれだけ進化しているか実感できるでしょう。
言語モデル
「十分に発達した科学技術は魔法と見分けがつかない」とは、アーサー・C・クラークの言葉です。科学テクノロジーは時に、私たちにこのような驚きをもたらすことができるのが魅力ですが、この感覚は残念ながら、新しいブレークスルーの意味や限界について考えようとするときに邪魔になります。そのため、まず最初に少し時間をとって、こうした技術が内部的にどのような仕組みになっているかを理解するところから始める必要があると考えています。
それでは、ChatGPTの話を始めましょう。これは言語モデルで、つまり人間の言葉を表現するものです。多くの大規模な機械学習プロジェクトの例に漏れず、このモデルの仕組みを本当に理解している人はいません(ChatGPTを生み出したOpenAIでさえ知りません)。どのようにしてモデルが作成されるのかは知られていますが、正しく理解するにはあまりにも複雑すぎるのです。現時点で(公開されているものでは?)最大の言語モデルであるChatGPTには1,750億を超えるパラメーターがあります。イメージとしては、操作できるつまみの数が1,750億個ある巨大な機械のようなものです。ChatGPTに対してテキストを送信するたびに、そのテキストが変換されて、これらのつまみ1つひとつの設定になります。その結果として、そのつまみの設定に基づいて機械が出力(さらなるテキスト)を生成します。ここにさらに乱数性という要素が加わり、それにより、同じ質問をしても毎回必ずしも同じ回答にはならなくなります(ただし、これも調整が可能です)。
このようなモデルが、ブラックボックスのように受け取られるのは、このためです。生涯をかけてこの機械を研究したとしても、そのうちの1つのつまみの意味を解明することができるかどうか怪しいものです。すべてのつまみを解明するのが極めて困難であるのは言うまでもありません。それでも、この機械が生成されたプロセスを知っていれば、この機械が何をするかはわかります。言語モデルは、テキストを処理できるアルゴリズムであり、トレーニングの段階で大量のテキスト(WikipediaやWebページの断片、書籍など)を与えられます。これにより、ある語の次にどの語が続く可能性が高いかがわかる統計モデルを生み出すことができます。たとえば私が「バラは赤く、スミレは」と言えば、かなり高い確信をもって次に続く言葉は「青い」だと推測できるでしょう(「Roses are red, Violets are blue(バラは赤く、スミレは青い)」はよく引用される英語の詩の一節)。これが言語モデルの仕組みです。このようなモデルでは、ユーザーの文章を完成させるのは、これまでに読んだものをもとに、質問に続く可能性の高い単語の並びを推測するのと変わりません。ChatGPTの場合、実際にはもう1段階必要で、それは教師ありファインチューニング(Supervised Fine-Tuning、SFT)と呼ばれます。人間の「AIトレーナー」がボットと多数のチャットを行い、問題がある(正確でない、偏見がある、人種差別的だ、など)と判断した回答すべてにフラグ付けを行うことで、その問題を繰り返さないように学習させます。
AIが何か理解できないのであれば、「数学」や「統計」に分類されるものと考えておきましょう。これらのモデルは、予測を目的としたものです。ChatGPTを使っていると、AIはものごとを「知っている」のだという感覚にとらわれます。初めての質問であっても、文脈に応じて、特定の分野の情報を返すことができるからです。しかし、AIはどの単語についても、その意味を理解しているわけではありません。与えられたテキストに対して、その続きとして自然な「感じ」がするテキストを生成できるだけです。ChatGPTが複雑な哲学的議論を展開できる一方で、基本的な計算でつまづきやすいことも、これで説明がつきます。文章の次の言葉を予測するよりも、微積分の結果を予測する方が難しいのです。
しかも、ChatGPTには記憶力はありません。2021年にトレーニングを終了しており、そこからモデルの成長は停止しています。アップデート版は、新しいデータでトレーニングが行われた新しいモデル(2024年のGPT-4)として公開されます。実のところ、ChatGPTは現在進行中の会話でさえ記憶していません。入力された新しいテキストとともに最近のチャット履歴が送信されることで、自然に感じられる対話が実現されています。
これを「知能」と呼べるのかどうか(そしてこれは人間の知能とはかけ離れたものなのかどうか)ということが、これからの哲学的論争の大きなテーマとなるでしょう。
Diffusion Model(拡散モデル)
MidjourneyやDALL-Eのような画像生成ツールとして使用されているモデルは、また別のものです。このようなモデルのトレーニングでは当然、テキストではなく画像(画素の集まり)を生成することに目が向けられています。テキストによる記述をもとに画像を生成するには、2つの要素が必要で、そのうちの1つは非常に直感的です。このモデルには、言葉と視覚情報を関連付ける手段が必要であるため、大量のキャプション付き画像が与えられます。それにより、画像とテキストデータのマッチングが得意な機械ができ上がりますが、これはChatGPTと同様、謎に包まれた巨大な機械です。この機械はブラッド・ピットがどんな顔をしているかはわかりませんが、ブラッド・ピットの顔写真を十分に学習すれば、それらの写真に共通の特徴を把握します。その状態で誰かが新しいブラッド・ピットの写真を提示すると、モデルはその人物を認識して、「ああ、またブラッド・ピットだ」とわかります。
必要な要素2つ目は、こちらの方が私にとっては驚きでしたが、画像を強化する機能です。このために使用されるのが「Diffusion Model(拡散モデル)」です。クリーンな画像でトレーニングを行い、認識できなくなるまで、徐々に(視覚的な)ノイズを追加していきます。この過程で、モデルはぼやけた低品質の画像と高解像度の画像の対応付けを、これも統計的な意味で学習し、ノイズの多い画像からきれいな画像を再構築できるようになります。古い写真のノイズ除去や高解像度化を行うためのAI搭載製品も実際に登場しています。
このすべてをまとめることで画像の合成が可能になります。ランダムなノイズから始めて、ユーザーのプロンプトと一致する特徴が含まれるように、その画像を徐々に「強化」します(DALL-Eの内部的な仕組みの詳しい説明はこちらにあります)。
的外れな問題
AIは人間の生活を支配するのでしょうか。AIツールの登場を受け、世間では大きな反応があり、一部では極めて悲観的な意見もきかれます。私たちの生活に突然AIが入り込んでくることに対して当然生じてくる懸念もありますが、現在議論されていることのほとんどは的外れな問題に焦点が当たっているというのが私の見方です。まずはその点について説明したうえで、AIを取り巻く議論で中心に据えるべきと私が考えるテーマについてお話します。
DALL-EやMidjourneyは実際の画家から盗用している
このようなツールは、見たことがある画像を寄せ集め、そこにある種のフィルターをかけることで、要求された画家の様式をまねるプログラムだと主張している人がいます。こういった意見を持つ人たちは、ベースになっているモデルの技術的な事実を知らないか、誠実に議論する気がないかのどちらかでしょう。
前述のとおり、このモデルは画像の抽出はまったくできず、トレーニングに使用された画像から単純な形状を抽出することさえできません。このモデルでできることは、せいぜい数学的特徴を抽出することです。
トレーニングの段階では、原作者の明示的な同意なく著作権のある作品が多数使用されたことは否定しようがなく、その点については議論の必要があるかもしれません。しかし、人間の画家も習作の段階ではまったく同じ工程を踏むことは指摘しておくべきでしょう。巨匠の絵画を模写したり、出会った作品からインスピレーションを得たりしています。それではインスピレーションとは何でしょうか。アート作品からそのエッセンスを捉える力と、それを深掘りしたくなる感覚ではないでしょうか。
理論上、人類の歴史の中で生み出されたすべての絵(および今後これらのツールが生み出すすべての絵)からインスピレーションを得られる能力があるという点で、DALL-EとMidjourneyはブレイクスルーをもたらしていますが、これは規模の違いの話であって、性質の違いではありません。
AIによってすべてが簡単になってしまう
こうした批判の背景には通常、芸術は難しいものであるはずだという考え方があります。これは私にとって、驚く考え方でした。芸術作品を鑑賞する人は通常、その作品の制作にどれだけの労力がかかっているか理解していません。こうした議論は新しいものではなく、Photoshopのリリースから何年経ってもデジタルアートは本当のアートではないと主張する人々がいます。こうした人に対しては、Photoshopを使うにもスキルが必要なのだという反論がなされますが、この意見もまた的外れだと考えます。ロバート・ラウシェンバーグがキャンバスに「白い絵」を描くのにどれだけのスキルが必要だったでしょうか。悪名高きジョン・ケージの『4分33秒』をあなたが演奏するには、演奏の練習がどれだけ必要でしょうか。
芸術を判断する基準の1つとして、スキルを取り上げたとしても、どこでその線引きをするのでしょうか。どれだけ労力がかかっていれば十分なのでしょうか。写真が発明されたとき、シャルル・ボードレールは写真を「自分でスケッチを完成させられない自称画家や才能が足りないかやる気のない画家の逃げ場」だと言いました(このような評価をしたのは彼一人ではありませんでした)。この考え方は結局間違いだったのです。
ChatGPTはサイバー犯罪を助長する
AIの登場によって、あらゆる場面で生産性が向上するようになるでしょう。現在は、多くのメディアやベンダーがあらゆる手を尽くしてChatGPTの狂騒に相乗りしようとしており、近年でもトップクラスにくだらない釣りタイトルが横行しています。以前の記事で取り上げていますが、ChatGPTは犯罪者がフィッシングメールを作成したり、悪意のあるコードを記述したりするのに役立つ可能性があります。しかし、こうしたことが制限要因になることはありません。GitHubの存在についてよく知っている人は、悪意を持つ人物にとってはマルウェアが手に入るかどうかは問題ではないことがわかっています。開発の速度が上がることを懸念した人たちはCopilotがリリースされたときに懸念を提起していたはずです。
本心からの懸念ではなく、単に経済的な思考からくるマスコミの狂乱の嘘を暴くのは下らないことだと思いますが、事実としてAIは、私たちの生活に大きな影響をもたらしつつありますし、本当に対処すべき課題が存在します。さまざまなノイズはその妨げになるだけです。
後戻りはない
2022年にリリースされたさまざまなAI搭載ツールに対してあなたがどのような感情を抱こうとも、今後さらに新たなツールが出てきます。コントロール出来なくなる前にこの分野に規制が入ると信じているのだとすれば、考え直しましょう。現在までの政治的反応を見れば、遅れを取らないうちにAI研究により多くの資金を割り当てる方向で政府が動いていることがほとんどです。政治の中枢には、この流れを減速させることに関心を持っている人はいません。
第4次産業革命
AIは生産性向上をもたらすでしょう。それはもう始まっているかもしれません。その影響の大きさは現時点ではまだ予想しきれません。何かをもとに文章を書くことが仕事になっている人は、今後について考える必要があるでしょう。ビジュアルデザインを請け負っている場合も同様です。人の手が加えられたものを求めるクライアントはなくならないでしょうが、大部分は安価な方に流れます。しかしそれだけではありません。リバースエンジニアや弁護士、教師、医師、その他さまざまな職業で仕事の在りようが根底から変わっていくと考える必要があります。
1つ忘れてはならないのは、ChatGPTは汎用チャットボットだということです。今後は、特定の用途についてはChatGPTを凌駕するような、特化型のモデルが登場するでしょう。つまり、あなたの仕事が現在のChatGPTでは対応できないものだったとしても、この先5年もあればそれができる新しいAI製品がリリースされる可能性があります。人間の仕事はすべて、人間が自分で作業するのではなく、AIを監督し、その出力が正しいかどうかを確認することになっていくでしょう。
AIが複雑さの壁にぶつかり、進歩が止まることがあるかもしれませんが、数々の失敗から私が学んできたのは、この分野に否定的な立場を取るべきでないということです。AIは、蒸気機関が世界にもたらしたような変化をもたらすでしょうか。そうはならないことを期待したいものです。生産手段の劇的な変化は人間社会の構造を変化させ、そこには痛みが伴います。
AIバイアスと所有権
AIツールにおけるバイアスについてはさまざまな人が語っているため、ここで改めて論じることはしません。OpenAIがそうしたバイアスにどう対処するかということの方が興味深いテーマになります。前述のように、ChatGPTは教師あり学習の段階を経ることで、偏りのない言語モデルになるための学習を行います。これは望ましい機能ですが、このプロセスによって同時に新しい偏りがチャットボットに植え付けられることも否めません。このファインチューニング段階の条件も曖昧です。「良くない」回答にフラグ付けをしている縁の下の力持ちはだれでしょうか。第三世界の国々の低賃金で働く労働者でしょうか、それとも怪しげなシリコンバレーのエンジニアでしょうか(ネタばらしすると、前者です)。
もう1つ知っておいた方がよいのは、AI製品は公益に資するものではないということです。現在作られているさまざまな製品は企業が所有するものであり、企業は何よりもまず利益を追求します。そうした企業の利益は人類の利益と一致することもあればそうでない場合もありえます。Googleの検索結果が変わると人々に大きな影響が出るように、AI企業やアドバイザーが人々の気付かないうちにユーザーに影響を及ぼす力を持つようになるでしょう。
これからについて
今後AIが私たちの生活に入り込んでくるか否かではなく、AIと人間の共存がいつから始まるかが問題です。私たちはその時に向けてどのような備えができるのかを考えておく必要があります。
ChatGPTやその後継が人間の手を借りずに意思決定ができるようになることに十分に注意を払っておく必要があります。ChatGPTは自信満々に振る舞うのが非常にうまいのですが、事実誤認が少なくありません。しかし、コスト削減のインセンティブが強く働けば、人間は除外されていくでしょう。
私の予想では、今後10年でオンライン上のコンテンツの大部分がAIを使用して作られるようになるでしょう(まずはテキストと画像、その後は動画やゲームなど)。そのようなコンテンツに対する自動的なフラグ付けの信頼性もあまり当てにすべきではないと考えられ、今後もオンラインで目にするものは批判的に受け止める必要があり、膨大なノイズをかき分けていくことになるでしょう。何より、これから登場する特化型のモデルには注意を払う必要があります。いわゆる4大企業のどこかが税法のトレーニングをしたモデルを作り上げ、抜け道がないか質問し始めたらどうなるでしょうか。軍事関係の人がChatGPTをいじっていて、「こういうものをドローンに搭載したい」と考えたらどうなるでしょうか。
AIはすばらしい働きをするようになり、退屈な作業を肩代わりしてくれ、新しい機能をあらゆる人が手元で利用できるようになり、新たな様式のアートをもたらしてくれます(これはもう始まっています)。しかし同時に、AIはおそろしいものにもなります。これまでの歴史を考えれば、権力集中が一層進み、テクノ封建制への道をたどることになるでしょう。仕事のあり方が変わり、人類の蓄えてきた知識との関わり方さえ変わるかもしれません。私たちは口を挟めなくなるでしょう。
パンドラの箱は開かれたのです。