以前体験したことのある話をします。
本件のトラブルシュートは私が担当していなかったので、そこから得た事実と教訓だけ整理します。
そのドミノサーバは、Windows系で、プログラムディレクトリが C ドライブ、データディレクトリが D ドライブで運用していました。
ある日、C ドライブの空き容量が 0 になる現象が発生しました。
原因は Domino ダンプファイルと呼ばれるものが出力されているためでした。このダンプは、JVM メモリの問題を検出すると自動生成されるのですが、その出力先がなんとプログラムディレクトリだったんです。
作成されたダンプファイルは約 10 GBもありました。経験上、プログラムディレクトリは、OS と同じ C ドライブにすることが多いと思います。増える前提ではないので、空き容量は 100GB にも満たないのではないでしょうか?
数回見逃せばCドライブは枯渇する可能性が出てきます。
ちなみに、そのサーバは HTTP タスクを起動しておらず、JAVA エージェントも存在しませんでした。JVM を使用していたのは、意外にもドメイン検索のサーバタスクでした。
この問題を経験して、『サーバ監視は省力化すべきでない』と悟りました。
サーバの用途を理解していたので、データディレクトリがある D ドライブだけを監視していたのです。用途はわかっていても、動作は知らなったという、知ったかぶりが根本原因といえるかと思います。
ちょっと省略したからと言って、大した効率化にはなりません。監視業務はもっとブラックボックス的に行うべきだったということですね...
0 件のコメント:
コメントを投稿