项立刚：硬堆算力遇瓶颈，「内外兼修」才是正道

2024-12-31心灵

自2023年ChatGPT问世让人工智能（AI）成为全世界关注的热点以来，美国AI产业规划的路线图，就是通过大量堆砌算力，建立多模态通用大模型。同时，其压制中国AI发展的思路，也是通过限制芯片这一算力的核心而来。

但经过两年发展，美国限制措施并没有取得预想中「拦腰斩断」的效果。据【华尔街日报】日前报道，美国从业者发现中国AI企业追赶美国同行的速度「快得出奇」，推测这是中国开发者们通过采用混合大模型技术，降低了对硬件的要求，从而在硬件被封锁的情况下实现「弯道超车」。

事实证明，只依靠多模态通用大模型并通过大量堆砌算卡来进行训练，这种AI的发展思路在对AI的理解上就存在误区。所谓人工智能，是机器对人类智慧进行模仿，形成机器的智能，从而帮助人类工作。其构成包括智能感应、信息存储、信息传输、信息处理（算力、算法、大模型）、智能终端多个部分，而并非只是一个大模型，更非多模态通用大模型。因此，真正意义上的人工智能，是需要在多领域全方位提升，才能实现人工智能水平的总体升级。

堆砌算卡、将资源集中在算力上导致的不平衡正在显现。包括OpenAI在内，多家业内头部公司已传出「数据荒」的问题。经过两年的发展，汇聚了大规模万卡，甚至十万卡、五十万卡规模智算集群的算力，大模型并没有取得脱胎换骨级别的提升，还因为对抗性机器学习、对训练产生的冗余数据和干扰信息过拟合等原因产生了大量「幻觉」。但这些公司只将其简单归结为「数据荒」，而事实很简单：算力的大规模提升并没有满足人们对AI巨大突破的预期，而仅靠先进芯片堆出来的算力无法实现构建出一个强大AI的目标。

即便只是处理信息的大模型，事实也证明了用大量算力来训练一个多模态通用大模型的路线越来越艰难。因为通用大模型的思路同样是用大量算力，训练出一个懂得各专业领域、能处理一切问题的「神人」。然而结果是，除了海量硬件和巨大能源消耗带来的高昂成本，通用大模型的效果也并没有达到预期。

从某种角度看，试图给一切问题找到「通解」，然后用它来解决未来各种不可预知的困难，本身可以被视为一种思维上的怠惰。就人类而言，并不存在一位「全知全能」的神人，而恰恰相反，人类社会多数情况下是在各专业领域进行分工与专精，这才是普遍现象。

对于AI而言，这种思路其实也更适合现阶段将AI的数据处理能力应用于提升产业效能、造福人类中。如医疗大模型、智能驾驶大模型，甚至还有专门分析布面是否有瑕疵的大模型。这些专用大模型由于要处理的信息较少，信息相关性和逻辑性也很强，干扰和冗余数据较少，因此对算力的要求很低，不仅不需要什么「万卡集群」，有时一张卡就可以完成训练和推理工作，输出的内容也更准确，效果更好。但也要注意，设计和训练专用大模型依然需要相当专业的知识和经验，包括高水平的设计者、跨学科合作，并通过高效的算法持续优化模型性能，有较高的人才需求。

前文提到的混合大模型，就是一种将通用大模型和专用大模型相结合，在处理具体工作时主要依靠专用大模型，在面对大众化需求时才调用通用大模型。这样的混合模式减少了资源开销和能耗，同时大大提高了效率，在专门领域体验也更好。

虽然长远来看，AI技术的不断发展和新应用场景的不断拓展会带来更多的算力需求，但现阶段智算能力过剩是世界上主要AI大国共同面对的客观事实：算力利用率大多介于10%到30%之间，通用算力利用率低，而工业、教育、医疗、能源等领域的大量「AI+」项目给AI专项算力、高性能算力等高端算力带来了巨大的缺口。因此，指望通过堆算力，打造多模态通用大模型的AI发展思路已然落伍，重视垂直领域需求、实现算力的提质升级才是关键。

中国从业者在逆境中找到了发展AI的正确路径，未来需要继续「内外兼修」。一方面努力突破硬件算力上的封锁，同时解决国产算卡的底层硬件异构等问题；另一方面要进一步提高国产AI的算效，既最大限度地释放国产芯片的算力，同时优化国产模型的效能，统筹算力「量的增长」和「质的提升」。这才是AI发展的正确之道。（作者是中关村信息消费联盟理事长）