全球范围内大模型技术的竞争速度正日益加快。据媒体报道,马斯克仅用 19 天便成功打造出全球最强的「超算工厂」!文章称,这座「超算工厂」配备了多达 10 万块液冷 p00 GPU,已然成为全球规模最大的超算集群。此新闻一出,超算技术瞬间成为了众人瞩目的焦点。
为何马斯克要构建超算工厂以在 AI 赛道上展开角逐呢?原因在于,若要开发出能与现有领先大模型相抗衡的产品,就必须构建足以支持大规模模型训练的计算基础设施。并且,超算在大模型训练中所发挥的作用,绝非仅仅是提供强大的计算能力,还涵盖了对训练流程中各个环节的优化,以此确保大模型能够在有限的时间内实现最佳性能。
我国专家也持有相似的看法。在近日举行的 2024 中国算力发展专家研讨会上,面对美国禁止销售高端 GPU、终止大模型源代码分享以及中断生态合作等一系列问题,专家们表示,通过超算技术就能够有效应对。
此外,马斯克用于大模型开发的超级计算机属于 AI 专用超算。超级计算机分为通用超级计算机和专用超级计算机?为何马斯克选择的是专用超算呢?
专用超算成为解决特定问题的杀手锏
通用超算与专用超算的区别是,通用超算具备广泛的适用性,能够处理各种各样的计算任务,例如科学计算、数据分析、数值模拟等。它就像是一个多面手,可以应对多种不同类型和规模的问题。而专用超算则是为特定应用领域而生,其硬件和软件配置都是为了满足特定需求而设计,以便实现更高的性能和效率。
在大模型训练的场景下,专用超算通过针对特定算法和数据结构的硬件架构和软件优化,减少了不必要的计算开销,提高了计算资源的利用率。这种优化不仅适用于大模型训练本身,还包括了数据预处理、模型调试、性能调优等多个环节,从而实现了整个训练流程的高效运行。
中国科学院计算技术研究所研究员张云泉曾指出,「当大模型需要1万至10万个GPU时,通过开发专用超级计算机克服高能耗、可靠性问题和并行处理限制是至关重要的」。
可见,专用超算是解决特定问题的杀手锏。
各行各业都在用 「 专用超算 」 抢占竞争优势
其实,除了大模型赛道的「AI超算」外,各行各业都在使用「专用超算」抢占竞争优势。
例如,除了构建超算工厂外,马斯克旗下公司特斯拉的Dojo就是一款专为大规模机器学习训练而设计的专用超级计算机。这款超级计算机特别针对特斯拉自动驾驶技术的需求进行了优化,能够高效处理和训练来自特斯拉车队产生的大量视频数据。Dojo的设计重点在于提高计算效率和降低能耗,通过高度定制化的硬件和软件解决方案,能够显著减少训练时间并提升模型的准确性。
DOJO超级计算机
还例如,安腾(Anton)超级计算机是特殊设计的、专门为生物分子动力学模拟研发的专用超级计算机,其计算效率比全球最强的通用超算高出数十倍。在美国AI制药公司Relay Therapeutics的案例中,借助安腾超级计算机的帮助,该公司仅用了18个月、不到1亿美元就确认了一款创新药物的结构,打破了传统的「双十」禁锢——即通常情况下研发一款新药需要花费10亿美元、耗时10年。
美国安腾超级计算机
专用超算领域也需警惕 「 卡脖子 」
随着专用超算被越来越重视,我们也需要警惕可能出现的「卡脖子」现象。
众所周知,英伟达p00 GPU的采购受到限制,这使得我们在Scale Law方面难以跟进。而在超算领域也有类似的趋势。
目前,世界上仅有的几台安腾超级计算机分别安置在匹兹堡超算中心和位于纽约市的D. E. Shaw研究所中。超算安腾的上机时间根据提交给美国国家科学院独立专家委员会的研究提案分配,只接受美国学术机构的使用申请,严格禁止中国等其他国家使用。
据环球时报报道,「超算曾经是中美之间科技合作交流很密切的领域,如今超算国际交流领域中也是雷区重重。2021年4月,美国商务部将7个中国超算实体列入所谓「实体清单」,声称其涉嫌「破坏军事现代化的稳定」。中国发展超算技术动辄被扣上「威胁美国国家安全」的帽子,并遭到无理的单边制裁。全球超算TOP500排行榜每半年更新一次,中国、日本和美国超算都曾夺得「全球最快超算」的桂冠。但这两年中国最领先的超算企业都不敢再参加TOP500的评选,原因是在该榜单上表现突出的企业有可能被美国列入黑名单、遭到更严厉制裁。」
可见,专用超算将是全球领域的「下一个风口」,而我国应警惕美式霸权主义,需要积极研发具有自主知识产权的专用超算技术和产品,从而减少对国外技术的依赖。