2016/11/27の停止原因について調査と対策を行いました。
2016/11/27の停止原因は、VMに対して kernelメッセージが大量に送信されたためでした。
あまりに大量のkernelメッセージがconsoleに送信されたために、VMがおかしいと判断され、
自動的に停止状態になってしまったようです。
もし、再起動であれば、自動的に復旧できるようにしていたのですが、
再起動ではなく、停止状態になってしまったことが問題でした。
停止状態とは、VMから見ると、いきなりコンセントを抜かれたような状態のため、自動復旧はできませんでした。
なぜ kernelメッセージが大量に出力されたのかは、残念ながらわかりません。
kernelを新しくするとメッセージを停止できるという情報もあったのですが、
更新するにはいろいろと手順が必要なので、
今回は、kernelメッセージをconsoleに出さないという手段を取ることにしました。
これで、少なくとも勝手にVMを停止状態に移行することはないと思われます。
また、停止状態になったことを把握できなかったことへの反省として、
死活監視を強化しました。
仮に再発したとしても、短時間での復帰を可能にします。
以上です。
システムトラブルにより、ご迷惑をおかけしましたが、
どうか今後ともよろしくお願いします。