當前位置: 華文星空 > 新聞

如何看待2023年年底,阿裏雲、滴滴打車、騰訊視訊等大廠平台相繼發生崩潰故障?

2023-12-03新聞

這個場景已經被流傳很多年的梗了!

航天某院的一個設計員因為待遇問題而離職了,然後當年的發射任務連炸了兩次。

是不是一樣的配方,很熟悉的味道!

本因

一個超級復雜的系統工程(下面這本書有助於理解筆者的回答)

上層和底層之間的跨越隔著十萬八千裏;

業務與業務之間的距離隔著幾個洋;

專業與專業之間的區別那是天地之別;

當復雜度的量級高到難以駕馭的時候,誰都沒法確定哪些關鍵路徑裏是什麽人能左右和確定的,也許關鍵路徑的當事人也不清楚對整個系統的影響。如此而已,簡單且不簡約的原因。

然後這個路徑上的人離職走人,很難有人能立刻馬上補充進去完成相應的任務和風險預測。

這個道理很長時間筆者也不懂得,直到看到過這麽一個問題:

萬用表的理論模型已經很成熟了,大學裏的大學生都能手搓出來,但是為什麽有些是3年品質保證?有些是5年品質保證?有些是10年15年品質保證?

這個問題不深究是不太好理解的,理論模型很清楚,實操也不算難,學習一段時間就能搞出來。但為什麽品質差別這麽大?這個問題的答案是:

場況的積累

場況 :各種場景下的狀況,一個很多人都沒有聽說過,也不熟悉的名詞。但卻在品質和系統穩定性方面發揮著巨大的作用。

一個公司或者個人的專業經歷就能積累相應的場況資訊,有的人善於總結記錄成冊,有的人就積累在大腦裏了形成了某種專業直覺!

這些就是為什麽人員發生變動的時候,對各種穩態系統失控的一個很重要的原因。

因為懂得這些場況的人不在系統的位置上了,而新人需要重新積累。

如此反復,但如果非要去追究關鍵路徑上的關鍵人員,那又是另外一個非常復雜的問題了,因為很可能上上下下沒有人能搞清楚每個環節上的關鍵場況需要哪些關鍵的人。

同時筆者也回答了為什麽美國到如今一時之間也無法再進行登月工程了,即使科技比幾十年前更發達、科學環境更好。因為那批積累了登月工程各種場況的人沒了,知識和設計圖紙也不是萬能的,沒有那些場況人員的加持,那該走的坑還要再走一遍。該失敗的地方還得失敗吸收積累場況。

另外就是裁員導致工作人員壓力大,謹言慎行之下也是對系統工程有了穩定性風險。