繰り返される大規模障害

インフラ担当のHARAIです。7月19日、世界中でWindowsマシンがブルースクリーンのまま起動できなくなる障害が発生しました。

公式のアナウンスによると、企業向けセキュリティ対策ソフトで、バグを含むアップデートが配信されたことが原因でした。なお、弊社はこのソフトウェアを導入しておらず影響はありません。

すぐにアップデートするのは考えもの

弊社は先日ISMSの維持審査を受けました。審査の準備として、社内ではISMS取得支援サービスによるセキュリティの力量確認テストが行われました。その中に、以下のような気になる設問がありました。

脆弱性対策情報の公開に伴う攻撃を防ぐために、脆弱性対策情報が公開された直後は、被害の大きさなどの確認を待たずに脆弱性対策を実施した方が良い。

YesまたはNoで答える設問です。正答は「Yes」とされてましたが、「アップデートは公開されたら即座に適用する」という習慣は、今回のような問題に巻き込まれるリスクを増やすでしょう。

自身に大きな影響がないのであれば、あえて時間を空けてからアップデートを適用する方が安全だと思います。とはいえ、すべてのアップデートの内容を精査するわけにはいきませんから、対象のシステムの重要性に応じてうまくバランスをとっていくことが必要です。

弊社でも、一部のサービスでは新バージョンを各環境にデプロイする際にあえて日時を分散し、リスク軽減を図っています(カナリアリリース)。

今回が初めてではない

過去にも似た障害はありました。2005年には、ウイルス対策ソフトのアップデートによりWindows XPを搭載したマシンでCPU使用率が100%に張り付いたり起動できなくなったりする障害が発生し、日本国内の多くのマシンが影響を受けました。日経クロステックに当時の記事が残っています。

セキュリティ対策ソフト以外にも目を向ければ、自動アップデートにより不正なソフトウェアが配布される問題はより頻繁に起こっています。

最近では、2024年3月にxz-utilというLinuxのファイル圧縮ソフトウェアの最新バージョンにバックドアが含まれていることが発見されました。

また2024年6月には、WordPressプラグイン作者のアカウントがクラックされ、WordPress公式ディレクトリ上で公開されているプラグインで、悪意のあるコードを含む最新バージョンがリリースされる事態が発生しました。弊社社員のブログでもこの件は触れられています。

同じことをするとみんなで失敗する

原因がミスであれサイバーテロなど意図的なものであれ、一箇所で起こった問題が即座にネットワーク全体に波及するしくみは危うさをはらみます。また、みんなと同じ対策をしてみんなで失敗すると責任が軽減され、違った対策をして一人だけ失敗するとことさら責任を追及されるのが社会の常であれば、その社会はますます不安定になっていくでしょう。

弊社インフラ部門では、社会の流れに合わせるのではなく、自由な議論を通して判断を行える人材を募集しています。