Wiki
Clone wikiichiji.social / 管理日誌 / 2019年12月
12/28
通報対応。いちくら年末かるた企画を諦めた。
12/19
wiki作成: https://bitbucket.org/tnzk/ichiji.social/wiki/Home
12/11
ユーザさんから504エラーの報告が何件かあった。
Pod の状態:
$ kubectl get nodes NAME STATUS ROLES AGE VERSION gke-mastodon-default-pool-1d2c1274-2lw2 Ready <none> 558d v1.11.8-gke.10 gke-mastodon-default-pool-1d2c1274-307n Ready <none> 166d v1.11.8-gke.10 gke-mastodon-default-pool-1d2c1274-5xjt Ready <none> 205d v1.11.8-gke.10 gke-mastodon-default-pool-1d2c1274-k8vg NotReady <none> 558d v1.11.8-gke.10
ichiji.socialで500エラーレートが高まっていた問題は解消した。22:00頃にk8sノード内で暴走していたプロセスを停止し、以降はノードが復活してichiji.socialのサービス提供も問題ない状態となった。しばらく様子を見て、22:00以降はほぼ500エラーは発生していない。特定のプロセスが暴走していた原因は不明。再発防止策として、ワーカープロセスにCPU・メモリのリソース上限を設け、もし暴走しても他のプロセスに影響が波及しないように対策した。
12/7
ユーザさんからの報告はなかったが、運用チームのモニタに22時頃にアラートがあった。一時的に通常の5倍くらい(単位時間あたり)のリクエストが来て負荷が高まった。今は落ち着いているので様子見。
Updated