当前位置: 华文星空 > 心灵

不仅「私人定制」还要「精装算力」 智算中心投建进入2.0时代

2024-12-20心灵

IT时报记者 郝俊慧

ChatGPT横空出世两年之后,一个共识逐渐在全球形成:通用大模型不是解决一切问题的「灵丹妙药」,汽车、医疗、金融等专业领域的问题仍需要垂类大模型「定点突破」,作为人工智能发展的新型基础设施底座,一路狂飙的算力建设由此进入转折期。

整体而言,算力中心整体速度在放缓,智能算力需求仍将持续爆炸式增长,但算力大模型尤其是垂类大模型的发展,对智算中心提出了更高要求,精细化、一体化、绿色化是智算中心高质量发展的必然方向,而投建逻辑将进入服务为主的2.0时代。

不久前,国内服务器厂商宁畅提出「精装算力」概念,以场景驱动为主,为互联网、汽车、制造、科研、医疗、通信等行业提供定制化的智算中心解决方案,也即打造「算力精装房」,提供软硬一体、全栈全液的整体算力服务,让大模型训推「拎包入住」。

「纯堆卡式」智算中心亟需降温

前段时间的「2024年国际算力标准与应用研讨会」上,中国信通院云计算与大数据研究所所长何宝宏指出,智算中心作为新一代信息技术的重要枢纽,为数字经济发展注入新动能,智算资源供给却并不平衡,高端算力市场短缺,而中低端算力市场则出现了供过于求的现象。

据赛迪顾问的数据, 截至2024年上半年,国内已经建设和正在建设的智算中心超过250个,2024年上半年智算中心招投标相关事件791起,同比增长高达407.1%。

这些智算中心背后,除了三大运营商、互联网大厂和地方政府之外,还有一大部分是「跨界选手」。

同花顺查询可知,截至12月17日,有「算力租赁」概念的上市公司有110家,其中不乏莲花控股、锦鸡股份、日料化学、大名城等主业原本是食品、化工、房产等企业。

然而,潮水来得快,去得也快。

智算中心的建设难度远高于传统IDC,网络、调度、运维、能耗、安全每一关都不好闯,能够真正支持大模型预训练的万卡集群,甚至十万卡集群,远不是囤卡就能解决。

今年一家电信运营商在发布其国产万卡集群时,便反复强调,自己是真万卡集群,实现的是单池万卡能力,采用了创新式的「魔方」三层立体架构。但除了电信运营商、云厂商和互联网大厂之外,鲜有「跨界选手」能真正做到如此规模。

既然做不到,自然只能「卷」低端算力供应赛道。

11月12日,锦鸡股份公告,公司全资子公司英智创新今年1月与缔息云联价值超过9个亿的算力租赁合同终止,原因是算力市场剧烈变化,根据此前公告,缔息云联将为英智创新的2048P算力提供每年1.844亿元的租赁费。

但今年以来,无论是GPU的价格,还是算力租赁价格,都在回落。去年,8卡p00服务器的价格一般在300万元以上,如今价格已降至230万元至240万元左右,而每小时的算力租赁价格从最高时的每月11万元降至现在的7~8万元。

降价的背后是闲置。

多位智算中心人士告诉记者,算力不好卖,尽管舆论场里人工智能是今年最大的「网红」,但实际上,真正落地的应用并不多,「市场没有想象中那么大。」另一方面,由于生态还不完善,基于国产卡的算力集群需要与大模型厂商做长期的适配调试,销售情况也不乐观。

据钛媒体的统计,上半年国内已上线智算中心17亿卡时,使用5.6亿卡时,利用率32%;另有数据显示,目前算力基础设施行业的平均上架率不足 60%。

面对ROI(投资回报率)的拷问,大多数智算中心并没给出令人满意的答案。

大模型带着智算一起转向

与此同时,大模型市场的转向,为智算中心的投建指出新的方向。

基座大模型玩家将越来越少,面向行业的垂类大模型正逐渐增多,AI正在进入工业设计仿真、端到端智驾、金融分析、生物科学、智慧医疗等领域,发挥生产力作用。

在今年9月举行的中国算力大会上,工业和信息化部总工程师赵志国透露,算力应用项目已超过1.3万个。AI应用端公司也将逐步进入AI技术兑现阶段,尤其是人工智能生成内容(AIGC)将迎来爆发式增长,据彭博预测,全球AIGC应用市场的规模预计将从2022年的18.6亿美元增长到2032年的6618亿美元,年均复合增长率达到80%。

这些变化都意味着,算力投资的边际增量依然很高。警惕智算中心建设的盲目跟风,不是不建,而是投资人要先想好一个问题:市场需要怎样的智算中心?

随着越来越多业务智能化的需求,传统算力服务单一供给模式显然已难以满足行业服务链不断延伸的需求,智算中心的梯度布局将越来越明显,并呈现出更加多元化的趋势:技术和投资门槛高、可支持超大参数规模大模型的万卡集群,将更多集中在电信运营商、云服务商、互联网大厂等金字塔顶端的公司手中,而以场景驱动、为大模型预训练和推理提供「交钥匙型」服务的专业型智算中心将成为「橄榄型」市场的主流。

中国信通院今年9月发布的【中国智算中心服务发展报告】指出,智算中心应该提供信息计算力、网络运载力、数据存储力为一体,覆盖从基础设施建设到行业智能应用全过程,最终将基础设施、模型开发与支持及行业场景应用一体化交付的服务模式。

市场反馈也印证了这个判断。很多智算服务商都在提供类似一体化的服务。

宁畅的「精装算力」概念,同样旨在为客户提供智算中心全栈解决方案,基于宁畅服务器的算力基础设施、集群管理平台和大模型平台,提供软硬件一体的一站式交付,让算力资源能够高效、精准地满足各类复杂业务场景,让大模型「拎包入住」。

「精装算力」破题「不可能三角」

宁畅的「精装修」方案市场定位非常清晰,针对场景,为互联网、汽车、制造、科研、医疗、通信企业提供智算中心或者行业解决方案,让这些行业垂类大模型可以「拎包入住」。

不过,要想让客户体验最佳,建设者要在技术领先、降本增效和绿色节能的「不可能三角」中寻找最优解。

智算技术更新迭代很快,智算中心的生命周期一般只有5至10年,建设者必须具备强大的技术储备和升级能力,加上受限于英伟达芯片限售,国产芯片百花齐放的同时,也让智算中心容易陷入异构算力的「陷阱」。

不同供应商提供的多种硬件和软件产品使得资源调度变得异常复杂,不同厂家的GPU驱动、软件开发接口或运行时间等方面都存在不兼容之处,甚至同一厂家不同代际产品想要统一调度,也有难度,以至于不同厂商的硬件资源难以高效连接,使用时也容易「旱涝不均」。

此外,垂类大模型在细分行业落地过程中,面临的算效、适配、应用、安全等问题也日益复杂,这类智算中心大多由本行业巨头或者链主单位自行投建,算力和投资规模适中,也是「跨界选手」比较青睐的标的。如何在有限的资金范围内,不仅解决复杂部署、调用、运维等问题,同时让AI应用的算力、算法、数据使用调试到最适合应用场景的状态,需要建设方提供系统性、全方位、全周期的支持。

至于能耗,更可能是智算中心投建即将面临的最大门槛。

7月,国家发改委、工信部、能源局与数据局印发【数据中心绿色低碳发展专项行动计划】,明确到2025年底全国平均PUE(数据中心能耗相对关键IT设备能耗的比例)降至1.5以下,到2030年能效利用率达到国际先进水平。此外,不少地方政府正在严控能耗指标,北京、河北、上海、广东、深圳等地对新建数据中心的能耗、选址等都提出了一系列要求,要求对建设主体资格、管理制度、
财务状况、技术创新、资金投入、合作开发、地理位置以及绿色能源使用等多项内容进行检查审批,给一线城市及周边地区的智算中心建设带来相当难度。

宁畅的「精装修」方案试图解开这道「奥数题」,推出的AI算力栈,可以通过深入了解用户的业务场景和算力需求,为用户量身定制算力解决方案。

在「硬装修」上,宁畅的方案实现了全栈全液,提供覆盖服务器、机柜、数据中心等多形态的液冷选择,支持多种散热硬件的自由组合,通过液冷、风冷或风液混合等不同组合方案,实现性能与能效的绝佳平衡。

大模型的应用场景与实际问题紧密相关,不同行业不同场景的定制化方案需要技术开发、数据利用、计算资源分配等多方面的服务支撑。

在「软装修」上,宁畅提供从集群到算子再到模型软件优化的全局服务和涵盖算存网管用全体系优化,基于宁畅GPU服务器和AI Manager管理平台,整合软件资源,协助客户高效构建大模型需要的基础设施,从而让客户更关注于应用层面的落地。

总而言之,无论是大模型的进化路线,还是算力中心的建设走势,都指向一个共同的未来:人工智能正成为真正「有意义的AI」,但从「可用」跨越到「好用」,再从「好用」到「高效」的背后,一定是可便捷获取的算力,以及新型信息基础设施建设者的不断创新。