production.log

ピクスタ株式会社で開発部の部長をやっている星直史のブログです。

AWS障害が発生した場合に確認するページやサイトまとめ

概要

2019年8月23日 13時頃からAWS EC2の接続ができなくなる障害が発生しました。
このような大規模障害は滅多にないので、障害の情報収拾する際に「どこみりゃいいんだ?」となるので、この機会にまとめることにしました。

この記事ではAWSで障害が発生した場合に確認するページやサイトをまとめます。

公式情報

公式の情報は正確性はあるものの、速報性には欠けます。
そのため、後述する非公式情報と並行して確認する必要があります。 公式情報からは、下記2つの情報が得られます。

  • 何がなぜ障害に繋がっているのか
  • いつ復旧する見込みなのか

この情報から、障害を回避するための方法や、自サービスの復旧見込みのアナウンス*1に役立てることができます

AWSサービス全体の障害情報

AWSサービス全体の障害情報はAWS Service Health Dashboardで確認することができます。

status.aws.amazon.com

このページは、大きく最新の情報(Recent Events)と過去7日間の障害履歴(Status History)が表示されます。 また、Recent Eventsには障害の状況も確認することができます。

f:id:watasihasitujidesu:20190823144855p:plain

自分のアカウントで影響を受けているAWSサービス

AWSサービス全体のうち、自分のアカウントで影響を受けている障害情報は、AWS Personal Health Dashboardで確認することができます。

aws.amazon.com

f:id:watasihasitujidesu:20190823150903p:plain

ここで表示される情報は、基本的にはAWS Service Health Dashboardと同一です。 また、AWS Personal Health Dashboardは、CloudWatch Eventsと統合することができるので、障害が発生した場合にいち早く通知を受け取ることも可能になります。

AWS CLI

先述した2つのダッシュボードで障害情報を確認することができますが、CLIでも確認することができます。

docs.aws.amazon.com

CLIでは下記オプションを指定することで、細かくフィルタリングすることができます。

  • describe-affected-entities
  • describe-entity-aggregates
  • describe-event-aggregates
  • describe-event-details
  • describe-event-types
  • describe-events

用途としては、下記の場合に使えるかと思います。

  • 7日以上前の障害状況と復旧までの時間をログとして残しておきたい
  • 特定の情報のみ操作したい

非公式情報

非公式の情報は正確性には欠けるものの、速報性があります。
AWS障害と思われる事象が観測された場合に、他のAWSユーザーも同様の状況に陥っているかを素早く確認することができます。 そのため、AWSの障害なのかを切り分けるための初手としては良い手だと思います

Twitter awsハッシュタグ

基本的には、Twitterを見れば誰かしらつぶやいていることが多いです。
この場合、最新タブに切り替えて、みんなの速報を確認します。

https://twitter.com/search?q=%23aws&src=typed_query&f=live

Twitter非公式アカウント

AWSの非公式アカウントで障害情報の速報を流しています。 今回の障害では見ることはありませんでしたが、「こういうのもあるよ」程度で知っておくと良いと思います。

まとめ

情報には、公式情報と非公式情報があります。 それぞれ、メリットとデメリットは下記の通りです。

  • 公式: 正確性はあるものの、速報性には欠ける
  • 非公式: 正確性には欠けるものの、速報性がある

そのため、障害が発生した場合、公式情報と非公式情報をうまく使い分けて、情報収拾をする必要があります。
また、公式の情報には、何がなぜ障害に繋がっているのか、いつ復旧する見込みなのかという情報が公開されます。
この情報から、障害を回避するための暫定対応策と、自サービスや社内メンバーへのアナウンスを考える事ができます。

*1:ユーザーさんや社内メンバーに向けて