世纪安信数据科技服务(深圳)有限公司


Meta 预演面向人工智能驱动未来的新数据中心设计

浏览: 时间:2023-05-30
去年,Meta制定了一个路线图,逐步转向水冷式人工智能基础设施,使用冷板为人工智能工作负载提供直接到芯片的冷却,以及随着机架功率密度的增加管理供水温度的几种设计

微信图片_20230530133044

Meta 正在为人工智能重组其庞大的数字基础设施,对从微型芯片到大型数据中心的一切进行细致的调整。作为这一转变的一部分,Meta确认其新设计将广泛使用液冷。     

微信图片_20230530133051

某数据中心搭载Meta OpenRack (开放式机架)的液冷系统

Meta确认将使用液冷来支持其“很大一部分”的人工智能硬件,此类硬件将使用专门为人工智能工作负载设计的新ASIC芯片。

新的芯片和数据中心设计在AI Infra@Scale活动上亮相,Meta概述了将人工智能作为其全球平台(包括Facebook、Instagram、WhatsApp和Messenger)的驱动力。Meta 还宣布扩大其研究超级计算集群和新硬件,以加快视频制作和交付。

Meta 首席执行官马克·扎克伯格表示:“多年来,我们一直在为人工智能建设先进的基础设施,这项工作反映了长期的努力,将使这项技术在我们所做的一切中得到更多的进步和更好的利用。”。

定制芯片和液冷并不是下一代数据中心设计中唯一的新问题。Meta还简化了配电,并将专注于基于软件的弹性,以减少设备,使其能够使用更少的备用发电机。

Meta基础设施工程副总裁Apana Ramani表示:“我们正在重新构想我们在人工智能IT基础设施方面所做的一切。”。“我们正在创建专门针对人工智能的数据中心。我们正在创建新的硬件,包括我们自己的芯片。成千上万的工程师正在为人工智能构建的大规模基础设施上进行创新。”

Meta表示,重新设计将有助于其建立更快、更便宜的数据中心,预计将比目前的设计节省31%。该公司还计划在建筑中使用碳密集度较低的材料,包括混凝土,以使Meta能够实现其高效用水和到2030年实现净零排放的目标。

更大规模的建筑

去年12月,Meta决定对其数据中心设计进行全面改革,以优化其人工智能设施,同时暂停了一些数据中心项目的建设。

Meta全球基础设施主管Santosh Janardhan写道:“随着我们在人工智能研究方面开辟新天地,为我们的应用系列提供更尖端的人工智能应用和体验,并建立我们对元宇宙的长期愿景,Meta的人工智能计算需求将在未来十年大幅增长。”。

Meta工程总监Alan Duong表示:“我们需要规划大约4倍的规模。”。这是一个惊人的数字,因为Meta在全球运营着21个数据中心园区,投资160亿美元,占地4000多万平方英尺。

然而,Meta表示,从现在到2028年,它可能会将数据中心建筑的数量增加一倍,达到160座,并将通过Meta内部设计的新定制芯片Meta训练和推理加速器(MTIA)为每个下一代数据中心注入更多的计算能力。MTIA是一种ASIC(专用集成电路),是一种针对特定工作负载高度定制的芯片。Meta表示,MTIA的效率将是大多数人工智能基础设施中使用的GPU(图形处理单元)的两倍。

这些额外的电力将产生更多的热量,并需要新的数据中心设计方法,这些方法将于2025年开始部署。

Meta负责数据中心战略的副总裁Rachel Peterson表示:“我们看到,未来人工智能芯片的功耗预计将是我们典型CPU服务器的5倍以上。”。“这确实促使我们重新思考数据中心的冷却,并为芯片提供液体冷却,以管理这种功率水平。

液冷路线图

去年,Meta制定了一个路线图,逐步转向水冷式人工智能基础设施,使用冷板为人工智能工作负载提供直接到芯片的冷却,以及随着机架功率密度的增加管理供水温度的几种设计。Meta在AI Infra@Scale的会议描述为下一代设计的“技术愿景的早期视角”。

液冷技术的加入将分两步进行。第一阶段将采用空气辅助液冷(AALC),它使用冷板在Meta现有的机房设计中提供直接到芯片的液体冷却,而无需安装管道从外部冷却源输送水。AALC采用带后门热交换器的闭环冷却系统。来自现有房间级冷却的冷空气通过机柜后门,冷却从服务器排出的热水。安装在相邻机架中的RPU(蓄水池和抽油机)泵送系统可使水在冷板和热交换器中流动。

微信图片_20230530133100

Meta数据中心支持空气辅助液冷(AALC)后门热交换器示例

“我们的下一代数据中心要到2025年底才能投入使用,”Meta发言人说。“与此同时,我们正在我们的数据中心设施中部署AI服务器,到2025年初,这些服务器将利用AALC进行芯片级的液冷。随着下一代数据中心中部署水厂设施,我们将继续利用分配空气冷却、AALC或直接到芯片的液冷技术,以适应硬件的发展和需要。”

当下一代设计推出时,它将继续使用平板地板,以容纳大量的Meta的传统CPU供电的服务器,以及AALC机架。

但新设计将增加定制液体冷却机架,以支持人工智能模型的培训。Meta分享的视频和图片包括一种新设计,机架中装满方形机箱,管道从前端进入,处理器和冷板浸泡在冷却液中。

微信图片_20230530133108

由Meta设计带浸没式冷却的基于冷板的技术示例

Duong表示,下一代设计可以支持“很大比例”的液体冷却,但这将逐步实现。

Duong说:“我们将起初只部署一小部分液体到芯片的冷却,我们将根据需要扩大规模。这意味着更复杂的前期机架放置和规划。但这使我们能够节省资金并更快地部署。”

精简动力链

Meta也在精简其电力基础设施的组成部分。

Duong说:“通过我们的新设计,提供更靠近服务器机架的电力基础设施将更简单、更高效。”。“我们正在通过配电链尽可能多地淘汰设备。”

这包括减少造成产能瓶颈的开关设备。Duong说:“这使得服务器机架在未来的密度可以增加,只需对我们的基础设施进行微小的修改,并且可以继续提高电力利用率。”。“这意味着我们消耗的电力更少,最终意味着我们建造的数据中心更少。”

Duong还表示,Meta将更多地依赖基于软件的弹性,而不是设备冗余。他说:“这使我们能够调整物理备份基础设施的规模,比如使用更少的柴油发电机,从而节省时间和部署。”。

Duong说,新设计将进行一些权衡,包括平衡电力和水的使用,这两者都是可持续发展目标的因素。

“液冷不是免费的,”Duong说。“我们不能再只打开窗户依靠自由空气冷却了。我们不能继续利用蒸发来排热,因为随着我们进入缺水地区,这将继续对我们构成挑战。这意味着我们将使用更多的电力来冷却设备,但是相反,我们将减少用水量。”

Meta表示,从今年开始,下一代设计将用于未来的数据中心建设。

Meta发言人表示:“我们目前没有任何改造现有园区以满足下一代数据中心要求的计划,但我们将继续提供可选性,以实现人工智能技术和硬件的发展。”。

未来还有更多变化

Meta演讲的明确主题是,人工智能将对许多事情造成破坏,尤其是数字基础设施。

Meta工程基础设施副总裁亚历克西斯-比约林(Alexis Bjorlin)表示:“我们正处于通往下一个信息时代的转折点。”。“人工智能工作量正以每两年1000倍的速度增长。

她补充道:“展望未来,人工智能的生成工作负载和模型要复杂得多。”。“它们需要更大的规模。传统的人工智能工作负载可能一次在数十或数百个GPU上运行,而生成的人工智能工作量则在数千个甚至更多的GPU上运行。

“这是一个非常迅速发展的空间,”Peterson说。“我们将继续在设计上进行创新,并继续思考如何实实在在地支持业务。

注:英文原文来自:www.datacenterfrontier.com

(完)