Wiki

Clone wiki

ichiji.social / 管理日誌 / 2019年12月

12/28

通報対応。いちくら年末かるた企画を諦めた。

12/19

wiki作成: https://bitbucket.org/tnzk/ichiji.social/wiki/Home

12/11

ユーザさんから504エラーの報告が何件かあった。

Pod の状態:

$ kubectl get nodes   
NAME                                      STATUS     ROLES    AGE    VERSION
gke-mastodon-default-pool-1d2c1274-2lw2   Ready      <none>   558d   v1.11.8-gke.10
gke-mastodon-default-pool-1d2c1274-307n   Ready      <none>   166d   v1.11.8-gke.10
gke-mastodon-default-pool-1d2c1274-5xjt   Ready      <none>   205d   v1.11.8-gke.10
gke-mastodon-default-pool-1d2c1274-k8vg   NotReady   <none>   558d   v1.11.8-gke.10

ichiji.socialで500エラーレートが高まっていた問題は解消した。22:00頃にk8sノード内で暴走していたプロセスを停止し、以降はノードが復活してichiji.socialのサービス提供も問題ない状態となった。しばらく様子を見て、22:00以降はほぼ500エラーは発生していない。特定のプロセスが暴走していた原因は不明。再発防止策として、ワーカープロセスにCPU・メモリのリソース上限を設け、もし暴走しても他のプロセスに影響が波及しないように対策した。

スクリーンショット 2019-12-11 21.26.21.png

スクリーンショット 2019-12-11 21.24.41.png

12/7

ユーザさんからの報告はなかったが、運用チームのモニタに22時頃にアラートがあった。一時的に通常の5倍くらい(単位時間あたり)のリクエストが来て負荷が高まった。今は落ち着いているので様子見。

スクリーンショット 2019-12-07 23.06.08.png

Updated