あるDB障害の話

前回のブログでこんなことを書いた・・・

ある全く無駄な運用JOBがあった。それは、ORACLEのAUDIT文なんだけど、元々AUDIT ONになっているのを再度ONするだけ。

でも、オンライン中に実行するのでAUDIT対象のユーザがログイン中、もしくは同時にログインするタイミングがある。

するとORACLEのdc_usersでデッドロックが発生することがあるらしい(特にRAC環境)。

AUDITの設定を変更する際、dc_usersへ排他ロックが掛かる。でもロック処理でバグがあるらしい。

サポートがバグと認めた途端、彼らはバグであることを盾に元々の無駄なAUDITのJOBを改変することを拒否した。

自分達の無駄な運用をメンツにかけて認め無くなかったのだ。

 

これにはさらに追加がある。

サポートで個別パッチを作ってもらい、適用手順とその効果も確認してもらった。さて、あとは顧客の許可を得て当てるだけだと思ってた。

#実際、顧客はいつ解決するんだと責められていた。

しかし、ここからがさらに長かった。

パッチを当てる前に自分達で検証するとSIerは言い出した。

で、バグの状況を踏まえて、こんな検証してこういうデータを取れば良いんでは?と提案したのだが、全く無視された。

全然関係の無い業務JOBと性能をパッチ当てる前/当てた後で比較して影響ないことを確認するんだと言い出した。

そのためにさらに1ヶ月以上の時間をかけて検証計画を立て、工数掛けて問題ありませんというデータ取りした。

これでやっと実施かと思いきや、今度はシステムバックアップを取らないといけないと言い出した。パッチが戻せることを確認しているにも拘わらず。

バックアップを取るにはOSを一度止める必要があるし、そうなるとWeb/APの再起動やら本番業務JOBのリスケやら大変な作業になる。ヤな予感がした。

案の定、JOBの設定ミスやら、OS再起動するときにストレージのマウントに失敗して起動できないやら、別の障害を何度も発生させた。

これには呆れるばかりだった。こいつらは、これが本当に仕事だと思っているようだった。無駄な運用、無駄な検証試験、無駄なバックアップ、顧客にその分工数請求できるからなんだろう、きっと。

IT業界はブラックだとか生産性云々なんてやつらには毛頭ない。

こんな連中が日本のIT業界大手のだから、日本のIT業界は永遠に変われないと思う。