当前位置: 华文星空 > 新闻

如何看待2023年年底,阿里云、滴滴打车、腾讯视频等大厂平台相继发生崩溃故障?

2023-12-03新闻

这个场景已经被流传很多年的梗了!

航天某院的一个设计员因为待遇问题而离职了,然后当年的发射任务连炸了两次。

是不是一样的配方,很熟悉的味道!

本因

一个超级复杂的系统工程(下面这本书有助于理解笔者的回答)

上层和底层之间的跨越隔着十万八千里;

业务与业务之间的距离隔着几个洋;

专业与专业之间的区别那是天地之别;

当复杂度的量级高到难以驾驭的时候,谁都没法确定哪些关键路径里是什么人能左右和确定的,也许关键路径的当事人也不清楚对整个系统的影响。如此而已,简单且不简约的原因。

然后这个路径上的人离职走人,很难有人能立刻马上补充进去完成相应的任务和风险预测。

这个道理很长时间笔者也不懂得,直到看到过这么一个问题:

万用表的理论模型已经很成熟了,大学里的大学生都能手搓出来,但是为什么有些是3年质量保证?有些是5年质量保证?有些是10年15年质量保证?

这个问题不深究是不太好理解的,理论模型很清楚,实操也不算难,学习一段时间就能搞出来。但为什么质量差别这么大?这个问题的答案是:

场况的积累

场况 :各种场景下的状况,一个很多人都没有听说过,也不熟悉的名词。但却在质量和系统稳定性方面发挥着巨大的作用。

一个公司或者个人的专业经历就能积累相应的场况信息,有的人善于总结记录成册,有的人就积累在大脑里了形成了某种专业直觉!

这些就是为什么人员发生变动的时候,对各种稳态系统失控的一个很重要的原因。

因为懂得这些场况的人不在系统的位置上了,而新人需要重新积累。

如此反复,但如果非要去追究关键路径上的关键人员,那又是另外一个非常复杂的问题了,因为很可能上上下下没有人能搞清楚每个环节上的关键场况需要哪些关键的人。

同时笔者也回答了为什么美国到如今一时之间也无法再进行登月工程了,即使科技比几十年前更发达、科学环境更好。因为那批积累了登月工程各种场况的人没了,知识和设计图纸也不是万能的,没有那些场况人员的加持,那该走的坑还要再走一遍。该失败的地方还得失败吸收积累场况。

另外就是裁员导致工作人员压力大,谨言慎行之下也是对系统工程有了稳定性风险。