rti技研アップデート

最新の更新情報をお届けします




サーバトラブルが発生しました。
現在は復旧しています。
本当に申し訳ありませんでした。



原因は前と同じく、突然CPU利用率だけが100%に跳ね上がり、すべてのプロセスが実行できなくなってしまったためです。
原因は、おそらくrsyslogプロセスの暴走だと思われます。

過去に何度か、同様の問題があり、
ほぼすべての共通するのは、ログが大量に書き込まれたときに発生していることです。
前回のトラブル時に、rsyslogを疑い、ログを書かないように設定をしていたのですが、それでもログが書き込まれてしまっていました。

今回は、この反省として、プログラム自体が標準出力に書かないように設定を変えました。
そして、rsyslog自体を停止します。

短時間に大量にログを書き込むと、rsyslogプロセスはCPUをすべて喰らい尽くすバグがあるように思います。
OSのロギングサービスを止めるのはたいへん忍びないのですが、この危険なロガーを使い続けるより停止した方がメリットがあるように思います。

また、メールとメッセージでサーバエラーを監視していたのですが、エラー通知に気がつくのが遅れてしまいました。
これについては、監視体制を見直し、音声メッセージでの通知を行うようにします。


2016/11/27のトラブル
安定して、数年運用してきたが、突如、
serial8250: too much work for irq4 というメッセージが大量に出力され、CPU利用率だけが100%に跳ね上がる。
このメッセージを無視するように設定をする。

2018/1/11のトラブル
2年間安定動作をしていたが、突如、
serial8250: too much work for irq4が再び大量に出力され、CPU利用率だけが100%に跳ね上がる。
再度、このメッセージを無視するように設定をする。

2018/6/11のトラブル
serial8250: too much work for irq4が再び大量に出力され、CPU利用率だけが100%に跳ね上がる。
どうやっても抑制できないので、サーバを変更することにしました。

2018/9/16のトラブル
新しいサーバとOSに変えたことで、rc.localで起動していたプログラムの標準出力がstdoutを経由してrsyslogへ大量に渡されてしまった。
そして、同様に、CPU利用率だけが100%に跳ね上がりました。
このメッセージを無視するように設定をする。

2018/9/29のトラブル
無視したはずのメッセージが大量にログに再度書き込まれ、同様にCPU利用率だけが100%に跳ね上がる。


旧サーバはCentOS、現サーバはUbuntuです。
当然ですが、カーネルや、サーバインスタンスは別のものです。

両方で共通することは一つだけです。
大量にログが書かれ続けると、まれに、CPU利用率だけが100%に跳ね上がり、一度そうなるとssh接続すら通らなくなることです。

両者で、この現象を引き起こせるのは、rsyslogぐらいしか思いつきません。
OSのロギングサービスを止めるのは忍びないですが、現状ではメリットよりデメリットの方が大きい用に思います。








2018/9/16に、サーバトラブルが発生しました。

現在は、すべて復旧しています。
大変ご迷惑をおかけいたしました。







FutureHomeController

FutureHomeControllerは、ハンズフリー音声認識技術を利用した、ホームコントロールです。
これを使うと、お持ちの家電を声でしゃべるだけで操作できるようになります。

詳しくはFutureHomeControllerのページをどうぞ。