液冷技术是解决数据中心能耗的关键,产业化难题如何破?
ChatGPT的火爆,再次点燃了数据中心对算力的狂热需求,行业购买服务器的需求量爆发式增长,但高能耗问题也随之而来。不仅是ChatGPT这一应用,“东数西算”以及“双碳”政策的实行,都对能耗提出了更高的要求,数据中心低碳化刻不容缓。
能耗问题的解决,需要在芯片层面、系统层面,甚至于整体机房的结构设计层面去综合考虑。如今,在业界能够提供这种技术并使其真正落地的厂商并不多,英特尔则正是其中很重要的一员。在近日的2023英特尔可持续发展高峰论坛上,英特尔更是重申了其对绿色、可持续的发展理念和决心。
在数据中心低碳化的发展路程上,一方面需要底层的芯片和基础架构具备能效比。今年1月英特尔发布的第四代至强可扩展处理器就是一个鲜明的例子。据其称,该处理器是英特尔迄今为止最具能效比的数据中心处理器,其本身设计中内置多种提高能效的技术,例如各种加速器引擎带来平均2.9倍的能效提升、对AI工作负载更能带来高达14倍的能效提升;新的优化电源模式可为某些工作负载带来高达20%的插槽节能等。具体可查看《揭秘第四代英特尔至强CPU性能提升的关键》。
另一方面,亦需要解决下游服务器的能耗,充分利用绿色可持续的节能技术,在这方面,液冷技术是行业普遍认为的一大利器。现有算力的快速发展是促使大多数客户快速从风冷技术转向更节能的液冷技术的重要原因。这不仅是宏观战略的要求,还是实际业务的需求,如今,在下一代服务器的发展中,液冷正成为一大潮流趋势。
液冷技术是下一代服务器发展的关键,互联网企业首先跟进
目前液冷技术主要包括两种:冷板式和浸没式。这两种技术如果用形象来理解的话,相当于在天气炎热的情况下,冷板式等于铺了一个凉席,即在很热的CPU上铺了一层冷板,通过这层冷板把热散出去;浸没式液冷相当于是泡澡,把所有的部件泡在液体当中,让温度可以降低。
这两种技术是平行的方案,不存在哪种技术占优,哪种是主流。具体是采用冷板或是浸没式液冷技术,需要根据客户平衡其对PUE和成本需求之后,做出决策。“譬如,当客户的需求是,效果比风冷强,PUE控制在1.2以内,而且能满足国家的要求,那么,目前冷板的TCO是最合适的;而当客户需要1.05以下的PUE,冷板就解决不了,这就需要采用浸没式液冷。”英特尔市场营销集团副总裁、中国区数据中心销售总经理兼中国区运营商销售总经理庄秉翰表示。
在实际应用方面,液冷技术首先被互联网产业大量应用,阿里采用的是浸没式液冷方案,京东是基于冷板的技术。运营商因为管理的数据中心较大,对冷板式的采用比例也很高。除此之外,金融行业也开始采用。整体来看,国内几个服务器使用的头部行业,如互联网、运营商、金融行业等,对液冷都已经跳过了POC阶段,进入到了规模化采用的状态。
总之,无论是冷板式还是液冷式,在未来的可持续发展当中,都是很重要的技术。“对于未来的大趋势,很大程度上可能还是液冷,只是不同客户采纳和应用的节奏不同。”宁畅总裁秦晓宁认为。
产业化难题如何破?英特尔推动标准化和成本优化
液冷技术本身并不是一个特别新的技术,如何把它产业化这是一个关键。首先,成本是液冷产业化的一大难题。尤其浸没式液冷可能对客户的挑战更大,因为它的成本增长不止是10%、20%,因此,目前浸没式液冷多为小批量尝试。另一个难题是尽管用户规模增大,但目前依然面临各自为战的情况。
在2023英特尔可持续发展高峰论坛上,英特尔宣布,已携手业界20余家生态伙伴共同编纂并于近期发布冷板液冷团体标准,旨在基于多家生态伙伴的液冷技术深厚实践经验,通过规范服务器及相关设备对液冷系统中冷板的设计、结构、性能、环境适应性的技术要求,以及简化设计与替代材料的选择等,从全产业链维度推动冷板方案标准化与成本优化,进一步降低产业与技术门槛,加速冷板液冷技术应用与方案落地。
同时,基于英特尔最新一代数据中心平台,英特尔亦与本地服务器厂商展开浸没式液冷系统合作与创新,并将把相关经验和技术内容向广大生态伙伴分享,以期推动和加速浸没式液冷解决方案落地。
通过这些标准的制定,一方面,可以让产业链所有的供应商尽量用统一标准来实现互连、互操作;另一方面,英特尔可以在其平台上大幅度优化方案适配的普适性,以及普惠性,并且大幅度降低后续运维的成本。最终,当标准建立起来之后,整个产业链会齐心协力去满足规模效应,整体成本会持续的下降,加速液冷技术在数据中心的落地。
据英特尔数据中心与人工智能集团副总裁兼中国区总经理陈葆立的介绍,除了成本这一因素之外,液冷技术的产业化落地难题还有如安全、液体漏液等其他的考量。假设管道或液体突然泄漏,或整个电子器件若有损耗怎么办?在这个过程当中需要大量的验证,这是为什么英特尔与许多业内领先的合作伙伴,如宁畅、新华三等,一起做了非常多的试验。其实需多厂家都提供了各种不同的方案,但是需要大规模验证去证明这些应用可以真正地、安全地使用,并且不影响整个作业和服务。
为助力生态伙伴打造更低碳节能的解决方案和参考设计,英特尔将绿色数据中心技术框架由1.0升级至2.0,该2.0版本不仅进一步覆盖隐含碳排放,同时也细化运营碳排放的维度。该框架在原有的高能效与高功率密度、先进散热技术和基础设施智能化三个垂直领域,以及XPU、服务器、机架、数据中心四个水平方向的基础上,新增材料和可循环设计模块,旨在将可持续理念深入贯穿至源头的原材料及设计中,通过模块化服务器设计、可降解PCB及负责任材料计划等,大幅降低数据中心整体生命周期的能耗。这些新举措不仅可以帮助存量的数据中心,也能满足新的数据中心。
英特尔是第一个基于第三代和第四代至强可扩展处理器,在浸没式液冷场景下使用,提供一年保修服务的厂家,这也是英特尔为了加速液冷技术在产业链应用所做的努力。
生态厂商们如何说?
新华三此前和英特尔及运营商合作时提供了创新的节能方案,可以帮助提供运营商的5G解决方案整体功耗降低30%-40%。在最新的服务器里,英特尔创新地推出电源汇流排技术(Power Corridor),通过限流板的方式,针对CPU底座进行设计,可以降低整个部件级的能耗。“英特尔一直强调在数据中心层面的可持续发展,所有的发展目标不仅是某一个元件技术,而是把数据中心的元件、部件、技术都考虑到了,共同推进低碳数据中心的发展。”新华三集团计算存储产品线副总裁刘宏程表示。
宁畅作为一家定制服务器初创企业,从最开始就选择了英特尔,在英特尔的支持下,宁畅于今年1月12日发布了基于第四代英特尔至强可扩展处理器的全系列自研产品。宁畅总裁秦晓宁表示:“英特尔的技术领先是全球性的,不光是在芯片层面,在包括节能、液冷层面都是领先的。英特尔在生态方面的建设也是非常全面的。它不仅是拉动芯片产业,同时亦包括软件、它的上下游,以及最终的客户。”
在隐含碳排放中,英特尔创新性地提出创建模块化服务器,并携手生态伙伴合力打造通用开放服务器平台(OCSP),并发布OCSP模块化规范。截至目前,已有100多位本地生态伙伴加入OCSP社区,且多家厂商已推出或正在研发符合OCSP规范的主板、机箱和其他模组。
写在最后
长远来看,绿色可持续的节能技术成本的增加只是一小部分,一旦节能技术运用进去之后,对未来算力的提升和运维的降低是非常巨大的。当“用户需求激增→标准建立→规模效应体现→整体成本自然下降”的循环形成之后,便可以加速推动产业从存量的数据中心转向新型节能数据中心的发展。
(来源:半导体芯闻)