現在、ABEJA Platformで下記の不具合が発生しております。
【発生事象】
GUI上にて学習ジョブ、Notebookの稼働Statusが「PENDING」状態から変化しない状態が発生する。
【発生時刻】
2020/04/15 13:40 (JST) - 2020/04/15 13:54 (JST)
【影響範囲】
ABEJA Platformをご利用いただいている一部の環境
【対応状況】
現在、不具合箇所の調査、および対応作業の準備を実施中となります。
復旧状況、および原因等の情報につきましては、判明次第こちらのスレッドにてご報告いたします。
ご利用のユーザ様には、大変ご迷惑をおかけし、誠に恐れ入りますが、
どうぞよろしくお願いいたします。
4/15 ABEJA Platform 障害発生における原因と対策のご報告
下記、判明しました障害原因、および対策につきまして、ご報告いたします。
■原因
今回の障害における原因につきましては、以下の通りとなります。
ノードあたりの IP 枯渇。起動した TensorBoard ジョブが増加したため発生。
□今回の障害発生影響
ABEJA Platform をご利用いただいている一部のお客様
■対策
今回の障害発生における対策として、以下の対応を2020年4月15日に実施しております。
- 不要なジョブなどを削除
- 恒久的な修正を今後実施予定
また、本不具合発生中に終了、失敗したジョブにつきまして、ステータスが「PENDING」状態から
変更にならないケースがございます。その場合、ジョブは終了しておりますため、お手数ですが、手動にて「停止」をお願い致します。
今回の不具合におきまして、ご利用のユーザ様には、ご迷惑をおかけし深くお詫び申し上げます。
引き続き、サービス全体の信頼性を向上に努めてまいりますので、今後とも、どうぞよろしくお願いいたします。