CPU寿命の時…
一昨日のサーバ障害の原因が判明しました。
やはりCPUの異常動作のようです。
ある条件が重なると、特定のエラー信号がおくられ、そのままサーバが停止してしまいます。
エラーになる原因を調べた所、どうも温度管理に関する所みたいです。
では…CPUの温度は異常だったのか?
BIOSの画面で確認すると40度代をキープしており、問題が無いかと思っていたのですが…。
CPUのファンを取り外してみました。
何かがおかしかった…。
そうです。CPUとファンの間には、グリスがぬってあり、密着度を高めることで冷却効果を高めているのですが、この故障したCPUは、このグリスが完全に乾燥していたのです。
ファンの裏側なのですが、こっちも完全に乾燥し、粉状態です。これでは逆に隙間が出来てしまい、CPUの冷却がうまく進みません。
うーん。(T_T)
グリスが乾燥するなんて、始めて見た症例ですが、よくよく調べてみると、CPUのグリスを定期的にぬっているサーバもあるそうです…。
何か考えないと…。
取りあえずもうすぐで新しいCPUとマザボが来ますので、代替えサーバと交換予定です。