100%を求めるのは無理だけど、1%の障害を想定した運用も結構無理だったりする

バグのないシステム、というのはもちろんある。でも、バグのないシステムを保証することはほぼ無理。たまたま出来上がることはあるけど、大抵は、「ほとんどバグのない」システムが出来るだけで、そのほとんどの部分を100%に限りなく近づけなければ怒られるシステムがあるだけで。

システム組んでいる側からすれば、100%を目指してはいるけど、100%はありえない。99%を99.9%にするには、90%を99%にするよりも、何倍、何十倍ものコストがかかる。100%は無理だ。
100%は無理だということを前提にして、オペレーションを行わなければならないのだ。

ANAのシステムトラブル | 堀江貴文オフィシャルブログ「六本木で働いていた元社長のアメブロ」

確かに100%は無理、なんだけど、それを前提にしたオペレーションが出来るか、というとシステムによる、としか言いようがありません。時には障害が出たら復旧するまで諦める、というほうが合理的だし安全だったりもします。
ここで上げられる例だってさ、電話一本入れたけど上手く伝達できなくて乗ってみたら席が被って大トラブル、とかになったら目も当てられないわけで。最初から障害が起きることを前提にした運用を考えておくってのは、ものにもよるけど、システム化による効果を反故にしてしまう場合もあったりする。大事なのは、何のためにシステム化したのかを忘れないことだ。手運用を考えることで本末転倒になることは避けなければならない。
そもそもさ、

私なんかは当たり前だと思っているこの100%は無理だということを教育すべきなんだろうね。システムは壊れるものだ。壊れたときにどう対処すべきなのか。それを末端の社員まで教えること。それが大事。

ANAのシステムトラブル | 堀江貴文オフィシャルブログ「六本木で働いていた元社長のアメブロ」

とは言うものの、システム化によってこういう教育を省略したり熟練の社員じゃないと出来ない作業を代替したりして業務のコストダウンを計っているわけですよね。なので、教育する、というのはコストを余分にかけることだから、壊れたときは諦めるほうが全体としてはよかったりして。もちろん、システムが何やっているかわからなくて、システムが壊れたときに会社ごと壊れてしまうような状態になってちゃいけない。そういうのは会社の規模によっても違うと思う。
末端の社員はシステムが壊れたときの対応をどこまで握っておくべきか。結構難しい問題だと思う。
大抵のシステムでは、障害時の対応マニュアル=お客さんへの謝り方、であることが効率的ではないかな。手運用による過積載で飛行機を飛ばすより、全く飛ばない方がマシだったりするのだ。