【障害/復旧情報】2020/4/15 ABEJA Platform障害のお知らせ

現在、ABEJA Platformで下記の不具合が発生しております。

【発生事象】
GUI上にて学習ジョブ、Notebookの稼働Statusが「PENDING」状態から変化しない状態が発生する。

【発生時刻】
2020/04/15 13:40 (JST) - 2020/04/15 13:54 (JST)

【影響範囲】
ABEJA Platformをご利用いただいている一部の環境

【対応状況】
現在、不具合箇所の調査、および対応作業の準備を実施中となります。

復旧状況、および原因等の情報につきましては、判明次第こちらのスレッドにてご報告いたします。
ご利用のユーザ様には、大変ご迷惑をおかけし、誠に恐れ入りますが、
どうぞよろしくお願いいたします。

4/15 ABEJA Platform 障害発生における原因と対策のご報告

下記、判明しました障害原因、および対策につきまして、ご報告いたします。

■原因
今回の障害における原因につきましては、以下の通りとなります。

ノードあたりの IP 枯渇。起動した TensorBoard ジョブが増加したため発生。

□今回の障害発生影響
ABEJA Platform をご利用いただいている一部のお客様

■対策
今回の障害発生における対策として、以下の対応を2020年4月15日に実施しております。

  • 不要なジョブなどを削除
  • 恒久的な修正を今後実施予定

また、本不具合発生中に終了、失敗したジョブにつきまして、ステータスが「PENDING」状態から
変更にならないケースがございます。その場合、ジョブは終了しておりますため、お手数ですが、手動にて「停止」をお願い致します。

今回の不具合におきまして、ご利用のユーザ様には、ご迷惑をおかけし深くお詫び申し上げます。

引き続き、サービス全体の信頼性を向上に努めてまいりますので、今後とも、どうぞよろしくお願いいたします。