ある現場の話
今通っている現場の話。
Windows/Hyper-Vメインのシステムというのも初めてなんだけど。
使っているパッケージはベンダーもしくは社内の別事業部任せ。
マニュアル、もしくはネットで調べた実装手順を碌に調査・検証しないまま本番実装。
ちょこちょとと試すくらいなら良いかも知れないけど、本番運用するなら性能や長期運用時のCPU/メモリ/ディスク使用、バグ等々いろいろ検証してから本番運用すべきだと思うんだが。
障害が発生するとログ・エラーメッセージをサポートへ送付するだけ。自分達でログを調べたり、運用で退避できないか調査しようとしない。
サポートから返ってきた対処療法をするだけ。サポートも背景を知らないからそれくらいしかしてくれない。
本当は、そもそもその実装が正しいかどうかを振り返ったりもしない。障害が続くと対処療法に対症療法が重なり、復旧手順が複雑になる。
こんなこともあった:
ある全く無駄な運用JOBがあった。それは、ORACLEのAUDIT文なんだけど、元々AUDIT ONになっているのを再度ONするだけ。
でも、オンライン中に実行するのでAUDIT対象のユーザがログイン中、もしくは同時にログインするタイミングがある。
するとORACLEのdc_usersでデッドロックが発生することがあるらしい(特にRAC環境)。
AUDITの設定を変更する際、dc_usersへ排他ロックが掛かる。でもロック処理でバグがあるらしい。
サポートがバグと認めた途端、彼らはバグであることを盾に元々の無駄なAUDITのJOBを改変することを拒否した。
自分達の無駄な運用をメンツにかけて認め無くなかったのだ。
着任して数ヵ月しか経ってなかったが、こいつ等と一緒に仕事したくないと真剣に思った瞬間だった。