デルタ航空のシステム障害に遭遇した話

先日、デルタ航空のコンピューターシステムで障害が発生し、多くの乗客が影響を受けました。空港に居合わせたKaspersky Lab社員が、そのときの様子をお伝えするとともに、こうした障害から学ぶべき教訓を考えます。

delta-featured

先日デルタ航空のコンピューターシステムで障害が起き、数十万人の乗客に影響が出ましたが、私もその1人でした。障害が発生したのは8月8日で、私はその日デルタ航空のフライトを2便利用する予定でした。結果的にはツイていました。どちらのフライトも欠航にならず、乗り継ぎ便に乗り遅れることもなく、他の多くの乗客に比べるとトータルの待ち時間も短い方でした。ほんの5時間ほどで済んだのですから。

結果的に何の支障もなかったのですが、待機して過ごした5時間はなかなか興味深い経験となりました。

何があったのか

デルタ航空は世界有数の航空会社です。保有機材は800機以上、毎日約15,000便を超えるフライトを運航し(提携航空会社含む)、年間1億人以上の乗客を運んでいます(英語記事)。13か所にハブ空港を有し、その1つが世界最大の空港であるアトランタ空港です。要するに、同社は非常に巨大なハブシステムを持っているのです。

8月8日の午前2時30分(米国東部時間)、アトランタにあるデルタ航空のデータセンター内で停電があり、その影響でコンピューターシステムのサーバーの電源がオフになりました。冗長システムがオンラインにならなかったか、高負荷になったために、コンピューターシステム全体の動作が停止しました。

Georgia Power(データセンターに電力を供給している会社)の広報担当者ジョン・クラフト(John Kraft)氏によると(英語記事)、停電の原因はスイッチギアによるもの。スイッチギアは、一般家庭にある電気のブレーカーと同じような働きをし、電力の流れを制御したり切り替えたりします。

航空会社の元幹部であり、業界アナリストでもあるロバート・マン(Robert Mann)氏はロイターに対して、「おそらく予備電源の定期検査中にスイッチギアに障害が起き、予備発電装置も使用できなくなったのだろう」と述べています。

結果として、8月8日に予定されていた約1,000便のフライトが欠航となりました。デルタ航空は復旧を急ぎましたが、その後の数日間、さらに多くの便が欠航となり、他のほとんどのフライトで遅れが出ました。

乗客の他にも、多くの空港がこのトラブルの影響を受け、世界中の航空管制官の作業量が増大しました。

デルタ航空と提携航空会社との間の乗り継ぎ便は複雑なスケジュールが組まれていますが、当然ながらこれにも影響が及びました。多数の乗客が、乗り継ぎで少し立ち寄るつもりの都市に宿泊を余儀なくされていたのです。

デルタ航空はこうした乗客に対し、搭乗予定のフライトのキャンセルと、同社負担による出発地での1泊を申し出ました。多くの乗客がこれに応じました。同社はまた、搭乗予定のフライトが欠航または3時間以上遅れた顧客に対し、200ドル分の旅行券を提供することも約束しました。

私の体験

その日一番タフだったのは、8月8日の午後の時間帯でした。障害、欠航、遅延の混乱がピークに達していました。私はその時、世界で5番目に乗降客数の多い(年間約7,000万人)ロサンゼルス国際空港にいました。万事順調なときですら、静かで落ち着いているとは言えない場所です。

空港内のあちこちで、おかしなことが起きていました。まず、私が乗るはずだったシアトル行のフライトの表示が、発着案内板から消えました。搭乗開始時間と搭乗ゲートを確認するには、デルタ航空のモバイルアプリを使うしかありませんでした。

ところが、搭乗ゲートの割り当てが5分ごとに変更されるのです。ゲートの割り振りを担当する職員はきっと、何百というフライトをいくつものゲートに割り振っていたに違いありません。テトリスの巨大版を、難易度最高レベルでプレーしているようなものです。

ターミナルの端から端まで30分も走り回った挙げ句、間違いなく自分のフライトに割り振られているゲートに、ようやくたどり着きました。このゲートの割り振りは口頭で取り決められたらしく、空港職員は昔ながらの電話で連絡を取り合っていました。

搭乗までにさらに2時間、これとは別に、飛行機が実際に離陸するまでにさらに2時間かかりました。

5時間に及ぶ待ち時間の間、デルタ航空職員の実にプロらしい仕事ぶりには感心せずにいられませんでした。職員は、障害による影響を緩和しようと努力していました。実に辛抱強く、乗客に状況を説明し、不便を詫びていましたし、物腰は常に丁寧で感じ良く、落ち着いていました。他にもたくさんの仕事があるだろうに、失礼な態度をとったり、質問を無視したりした職員は1人もいませんでした。

まとめ

コンピューターシステムがダウンすると、昔ながらの手段に切り替えるしかありませんが、こうした手段は現代の作業負荷に耐えられるように設計されていないため、驚くほど非効率的であるばかりか、現在の基準では到底「使える」とは言えません。こうした場合に私たちにできるのは、できるだけ早く電子システムがオンラインに復旧するよう願うだけです。

では、どうしたらよいのでしょうか?時々信頼できなくなるような電子システムなど、捨ててしまうべきでしょうか?もちろん、そんなことはありません。現代の技術がなければ、どんな企業も競争に勝てないでしょう。乗用車やトラックが危険だからと言って、代わりに馬で貨物や乗客を運ぼうと言う人はいません。

本当に必要なのは、セキュリティと信頼性に最大限の注意を払うことです。重要インフラの運用管理を担う電子機器を、事故や攻撃から適切に保護すべきです。今回の一件は、産業用コンピューターシステムに深刻な障害が起きると、数十万人の生活に大きな影響が及ぶ可能性があること、そして言うまでもなく金銭的損失(英語記事)が伴うことを思い出させてくれる事例です。

ヒント