更新时间:2026-04-21
点击次数: 
全球人工智能竞赛持续升温,数据中心作为算力基座已从后台走向风口浪尖。美国、欧盟密集出台能耗披露与能效监管新规,中国也在“东数西算”工程基础上加速推进绿色数据中心标准与国际互认。一边是技术狂飙,一边是公众对电力、水资源承载力的焦虑,如何维持平衡成为各国面对的共同命题。
美国智库“信息技术与创新基金会”(ITIF)4月发布报告,系统回应了关于AI数据中心的五大核心关切——从耗电、挤占电网、推高电价、威胁可靠性到用水压力。
文章指出,问题症结往往不在AI部署规模本身,而在衡量框架、市场设计与规划流程的滞后。虽然原文立足美国政策语境,但其揭示的技术治理逻辑具有普遍参照价值。对中国而言,既要警惕“算力焦虑”被简单化为限制发展的借口,也应从中汲取经验,以更精细的制度工具推动算力基础设施与绿色低碳协同演进。观察者网翻译全文,仅供读者参考,不代表本网站观点。
数十年来,数据中心一直是信息经济中默默无闻却坚实可靠的基础引擎,在全球商业和日常生活的后台持续运转。但随着人工智能(AI)的兴起,这些设施被骤然推至公众舆论和政治的聚光灯下。人们愈发担忧数据中心的扩张将对能源系统、水资源以及地方基础设施造成的影响。然而,对这些焦虑情绪的根本成因,各界理解尚不透彻,且常常错误归因。至于政策应对措施则往往针对AI部署的规模,而非其系统性影响。
本报告审视了相关争论中五个最为重大的论断——涵盖电力使用、电网接入、电价、供电可靠性以及水资源的影响——并得出一致结论:核心挑战并非AI基础设施本身,而是用于衡量、定价和管理其影响的制度框架。推动这些框架的现代化,既能保护普通家庭与社区、强化电网性能、减少环境影响,又能允许AI基础设施建设以支撑美国竞争力和创新力的方式有序扩张。
在塑造相关立法提案、监管行动和公众舆论的争论中,有五大论断居于核心地位:
这些论断的提出各有其缘由。在某些情况下,批评者确实指出了真实存在的物理压力——如更剧烈的用电尖峰、波动更大的热负荷——但采取的应对方式却较为生硬,例如设置禁令或容量上限,而非能够直接应对这些压力的技术和运营解决方案。在另一些情况下,批评者指向的问题确实值得关切,例如居民电费上涨,但对原因的诊断却有误,将其归咎于数据中心的需求,而非主导电网成本回收与转嫁方式的市场设计规则。还有一些情况中,批评更多反映了对大规模AI部署的笼统式反对,而非一种清晰界定的、有经验证据支撑的系统性风险。
第一,关于AI数据中心耗电过多的担忧。虽然AI工作负载确实增加了电力需求,但数据中心并非全球电力需求增长的主要、次要甚至第三级驱动因素。更重要的是,电力使用本身并非一个政策问题,除非它导致了某种具体的负面影响,例如居民用电成本的上升、电网可靠性降低或环境损害。将电力消耗本身视为问题,可能导致政策矛头错误地指向规模而非实际影响。为确保政策制定者在评估能源使用时着眼于实际结果而非吸引眼球的数字,国会应指示美国国家标准与技术研究院(NIST)和能源部(DOE)开发“单位工作能耗”指标体系,以衡量相对于产出效率的电力使用情况,并支持推动此类标准的国际协调统一。
第二,关于AI数据中心挤占有限电网容量其他用途的担忧。数据中心在“抢占”电网这一说法,暗示其需求正在挤占更具社会价值的电力用途,并默认这些工作负载本身的社会效益较低。这并非公允的评价。数据中心支撑着广泛的经济与公共利益,而关于其在新增需求中占比的广泛引用数据,往往依赖并网申请队列信息,但由于其中存在大量投机性和重复性申请,这些数据高估了实际所需的容量。这并非否认美国电网正面临压力。政策制定者应将重点放在降低所有项目——无论是清洁能源、医院、住房还是数据中心——接入电网的难度上,而非限制某一类需求。国会应要求公用事业公司公开报告融合AI与自动化技术的队列管理最佳实践;联邦能源管理委员会(FERC)应将电网运营商的成本回收机制与可量化的并网审批研究周期缩短情况挂钩;国会还应利用联邦税收抵免和贷款计划,激励并网申请的自动化处理。
第三,关于AI数据中心将推高居民电费的担忧。认为数据中心增长必然导致居民电费上涨的观点,错判了问题的根源。如果数据中心需求在本质上会推高居民用电成本,那么类似的需求增长应在不同地区产生相近的价格涨幅。但事实并非如此。在某些地区,公用事业公司基于对未来需求的预测向发电商支付容量预留费,这意味着仅凭预测的AI负荷增长就可能立即引发居民成本上升——甚至在单个数据中心尚未动工之前。而在其他地区,发电商仅按实际输送的电量获取报酬,因此类似的需求增长并不会带来同样的价格冲击。
造成差异的关键不在于数据中心增加了多少需求,而在于市场规则决定了这些成本何时、以何种方式转嫁给居民用户。当前的美国电价结构还假设需求在很大程度上不具弹性,但许多AI工作负载实际上可以根据价格信号在时间或地点上进行调整。政策制定者应支持具备电网感知能力的负荷灵活调度,使大规模用电负荷能够在电网压力峰值时段调整用电行为,从而减少对最昂贵电源的依赖,并抑制本会传导至居民端的电价飙升。
第四,关于AI数据中心威胁电网可靠性的担忧。AI工作负载确实带来了新的运行挑战,尤其体现在其用电需求高度波动且变化极快。风险源于这类负荷模式与并非为应对快速波动而设计的电网基础设施之间的互动方式。要解决这一问题,需要确保大规模用电负荷以有利于系统稳定性的方式管理其电力消耗。国会应支持制定一项行业行为准则,内容涵盖负荷平滑、现场电力缓冲及功率变化率控制等方面。国会还应指示FERC将有利的并网条款与遵守此类标准挂钩,并鼓励保险公司向证明合规的运营商提供更优惠的保费。
第五,关于AI数据中心给地方水资源带来压力的担忧。相关讨论常聚焦于数据中心使用了多少水,但用水本身并不等同于对水资源造成损害。关键问题在于水资源从何处抽取、如何被使用,以及是否以维持当地生态系统的方式回归环境。许多数据中心运营商已采取措施管理和补充其用水,但用水消耗与回补量衡量方式的差异,导致难以评估其实际影响或比较不同运营商之间的表现。
国会应指示美国国家环境保护局(EPA)与NIST协调,建立一套标准化的水资源核算框架,明确规定必须衡量的指标以及回补量的核实方法,以确保不同运营商之间报告的一致性和可比性。国会还应指示EPA识别水资源压力较高的区域——即数据中心取水风险最大的地区,并在这些地区激励采用低取水冷却技术和提高用水效率。政策制定者也应支持将数据中心整合到区域供热系统中,以对其废热进行再利用。
数据中心是用于管理、存储、处理和传输海量数字信息的设施。它们支撑着从电子邮件、视频流媒体、云存储等日常服务,到处理银行交易、和大规模商业运营的企业级系统在内的各类应用。越来越多数据中心也在支持包括人工智能在内的更高强度计算任务。
这些工作负载的复杂性和强度各异,但它们都依赖相同的核心基础设施:用于处理数据的服务器机架、用于传输数据的高速光纤网络、用于维持温度稳定的冷却系统,以及保障全天候不间断运行的稳定、大容量电力供应。在AI出现之前,企业设计的大多数数据中心旨在处理模式相对可预测、电力需求适中的混合型工作负载。
图1展示了一个典型数据中心的构成——从电力和数据如何进入建筑,到内部的设备,再到支持和保障其运行的系统。理解这一基础架构,对于认识AI如何开始对其形成冲击至关重要。
图1一个典型数据中心的常见基础设施,包括服务器大厅、后备柴油发电机到变电站、输电线等
如图所示,数据中心不仅仅是一栋装满服务器的建筑。它是一个将电力、连接、冷却和人员紧密整合在一起的系统,以确保不间断运行。电力通过高压输电线进入,在园区内的变电站进行转换,然后分配到设施各处。为防范断电,现场还安装了备用发电机和电池系统。
光纤网络线缆将数据中心连接到互联网、集群中的其他数据中心,或同时连接两者,使其能够快速、安全地交换信息。在建筑内部,数据大厅容纳着处理和存储数据的计算与网络设备。这些机器会产生大量热量,因此设施还包含冷却系统和环境控制设备以维持温度稳定。
整个场地由围栏进行物理防护,并由信息技术专业人员、工程师和设施管理人员组成的团队负责监控和维护运营。部分空间被划为办公和辅助功能区,但整个设施的核心是围绕提供稳定、不间断的存储和计算能力而构建的。
并非所有数据中心都采用相同的建设标准。大多数可归入以下三类之一:企业级、主机托管或超大规模。企业级数据中心是为单一组织服务的私有设施。其所有者通常是非科技类公司,如银行、保险公司和政府机构,它们需要安全地在内部存储和处理数据。
主机托管数据中心是多家公司租用空间来安置其计算设备的共享设施。每家租户自带服务器并管理自己的IT系统,但依赖主机托管服务商提供其他一切服务,如电力、冷却、物理安防和网络接入。主机托管数据中心服务从初创公司到大型零售商再到政府机构在内的广泛客户群。
最后,超大规模数据中心旨在满足亚马逊、谷歌、Meta、微软等全球科技公司及其客户的需求。其中一些由使用它们的科技公司直接拥有和运营;另一些则由第三方供应商建造并出租。无论哪种情况,超大规模数据中心均针对效率、模块化和性能进行了优化,现已成为市场中增长最快的部分。
AI工作负载对数据中心提出了不同的要求,因为其所需的计算类型与传统任务有着根本性区别。满足这些需求不仅会迫使处理器发生变化,也涉及内存、互连架构和服务器的改变。而由于服务器是构建数据中心的基石,这些变化会向上传导,重塑从机架布局到供电和冷却系统的方方面面。
传统数据中心工作负载(如网页服务器和企业数据库)的计算工作涵盖广泛的操作类型。这些任务结合了标量算术运算、条件逻辑和数据搬运。例如,一次数据库查询可能需要从存储中检索记录、比较数值、应用筛选条件并对结果进行排序。每一步都遵循确定性序列,尽管工作负载可能很复杂,但通常是可预测的,且非常适合能够处理多种不同类型指令的通用处理器。
相比之下,AI工作负载依赖于一组更窄的操作集合——主要是矩阵乘法——但这些操作的计算强度远高于前者。在训练阶段,这些矩阵被反复相乘,系统在此过程中调整数十亿个参数,以捕捉海量数据集中的统计规律。微调阶段则以较小的规模应用相同的操作,利用新数据对已训练好的模型进行优化,使其能够专注于特定任务或领域。推理阶段则是将训练好的模型应用于新的输入数据,运用其参数生成输出——无论是图像分类、产品推荐、文本生成还是语音翻译。这三个阶段都涉及并行执行海量的乘法和加法运算。
AI在执行训练、微调和推理所需的大规模并行矩阵运算时,对图形处理器(GPUs)的依赖程度远高于中央处理器(CPUs)。但这种转变并不局限于处理器本身;AI工作负载重塑了整个服务器架构。为AI优化的系统会将多个加速器紧密地集群在一起,为它们搭配物理位置上靠近计算单元的高带宽内存(HBM),并通过能以极高速度在芯片间传输数据的超高速链路将它们连接起来。随着模型规模的扩大以及分布式训练和强化学习等技术的普及,设计者必须重新思考计算、内存和网络在每台机器内部的布局方式。这些变化增加了单台服务器内的功率密度和发热量,而由于服务器是数据中心的构建基石,其影响会向外传导,波及机架布局、电力输送系统和冷却基础设施。
在转向讨论五大关切之前,有必要仔细审视一个体现尖端AI硬件样貌的实例。英伟达的DGX H100是一款围绕该公司H100芯片构建的专用服务器——H100芯片数年来一直是市场上最先进的AI处理器之一,也是当今数据中心部署最广泛的AI处理器之一,其性能之强大以至于受到美国政府的出口管制。DGX H100是一个由英伟达完全设计并集成的整套一站式系统。
在接下来的案例研究中审视DGX系统,观察英伟达所做出的全部设计选择,可以清晰展示一款明确为AI工作负载构建的服务器与传统机器有何不同,并为后续章节——关于这些差异如何向外传导并塑造整个数据中心的设计——做好铺垫。
每一台DGX服务器的核心是八颗英伟达H100图形处理器。下图展示了该系统的拓扑结构,这些图形处理器居于中心位置。每颗图形处理器内置两种主要核心:张量核心与CUDA核心。张量核心专为深度学习中占主导地位的矩阵乘法运算而生,H100通过自动混合精度技术加速这一工作——即在计算过程中动态切换不同浮点数据精度以兼顾速度与精度。而CUDA核心作为通用处理器,负责处理不适合矩阵数学的任务,例如数据预处理、激活函数以及AI程序的整体流程管理。
不同于传统服务器中内存与处理器分置在不同模块,H100将内存直接置于芯片之上。这听起来像是内存直接堆叠在处理核心上方,但实际情况并非如此。
如图3所示,图形处理器逻辑芯片(红色部分)是容纳处理核心的引擎。其旁侧是垂直层叠的高带宽内存芯片,底部有一被称为基底芯片(Base die)的控制层,负责通过一片名为中介层的薄硅片管理与处理器的通信。基底芯片是高带宽内存的一部分。实际结构远比此示意图中更为纤薄紧凑,但原理不变:图形处理器所用的高带宽内存通常向上堆叠建造,而非平铺展开。
图形处理器芯片还带有内置端口,用以连接服务器中的其他设备。在H100上,部分端口专用于NVLink——一种将一颗图形处理器与另一颗直接相连的专用高速连接,为图形处理器间的通信提供了比标准接口更快的通道。H100芯片上的其他端口则将图形处理器连接至NVSwitch,后者如同集线器,使服务器内每颗图形处理器都能同时与其他所有图形处理器对话——为大规模AI工作负载构建了一个紧密互联的网络。最后,图形处理器芯片还包含与服务器中央处理器通信的端口。
图2的其余部分展示了这些处理器如何向外连接至网络与存储。在两侧,中央处理器连接至高速网络适配器,借助以太网或InfiniBand等技术提供外部连接,既用于服务器间数据传输,也连接至存储系统以访问海量数据集。系统还包含大量用于数据缓存与本地工作的内部高速存储。尽管图中显示为两个独立部分,但它们如同大脑的两个半球,作为一个统一的整体协同工作。
总而言之,DGX系统揭示了图形处理器内部的变革如何远远超出芯片本身而产生涟漪效应。这些组件的排布方式——垂直堆叠、更密集的封装、通过专用桥接互连——产生了更多热量,必须借助先进冷却系统将其排出。所增加的重力负荷与功率密度,反过来又对数据大厅的建造方式提出了新要求。简言之,使H100这类图形处理器面对AI工作负载如此高效的创新,同时也对服务器乃至整个数据中心的设计与运行提出了一系列新要求。
与前文所述的另外四个关切不同,它们将AI更高的电力消耗与具体的下游效应联系起来,如挤占其他电网容量、推高居民电费、威胁电网可靠性、给地方水资源带来压力等;而“AI数据中心耗电过多”这一论断常常是独立提出的。
确实,AI工作负载增加了数据中心对电力系统用电规模的需求,因为运行和操作AI所需的硬件,其功耗显著高于用于传统计算的硬件。根据SemiAnalysis的研究,一台典型的CPU和存储服务器在正常运行时的平均瞬时功耗约为1千瓦,而单台AI服务器的功耗则处于10千瓦的量级。具体而言,SemiAnalysis发现,一台DGX H100服务器在正常运行时的平均功耗约为10,200瓦。
但数据中心并非全球电力需求增长的主要、次要甚至第三级驱动因素。图4展示了国际能源署的数据,显示了从2024年到2030年各行业电力需求的预计增长量,单位为太瓦时——这是衡量国家或全球层面电力消耗的标准单位,相当于维持一小时一万亿瓦的功率。数据显示,在2024年至2030年间,数据中心用电量的增长将占全球电力需求总增长量的不到10%。其他因素,如工业产出、交通和建筑电气化、空调使用增加以及电动汽车的部署,预计将对整体需求增长贡献大得多的份额。
图4:按产业划分的全球电力需求增长预测,2024-2030年,从上至下:其他、重工业、供暖与热水供应、数据中心(橙)、空间冷却、家电用具、电动运输、轻工业。单位:太瓦时
相比其他大规模需求来源,数据中心并非唯一给电网带来压力的需求来源。因此,如果这种担忧并未指向具体的下游损害——如消费者成本上升、环境破坏、电网可靠性降低或其他用户被排挤——那么它实际上并不涉及可测量的系统性失效。在这种情况下,电力消耗便成了对AI规模或发展速度更广泛疑虑的替代指标。将绝对的电力消耗本身视为问题,是用对AI部署的本能式抗拒替代了严肃的政策辩论,却从未明确指出究竟需要解决何种具体问题。
政策制定者应为AI建立“单位工作能耗”指标,确保电力使用比较与产出效率挂钩
即使政策制定者认同应根据下游效应来评估电力使用,绝对消耗量仍常成为这些关切的简略表征。但仅凭总用电量数据,并不能区分哪些系统的功耗更高是因为其计算产出实现了数量级的跃升,而哪些系统的功耗更高却并未带来相应的处理能力提升。一则关于“数据中心今年用电量是去年两倍”的头条新闻,丝毫不能揭示AI系统的效率是变得更低,还是产能大幅提高。若无法将能源使用与产出相关联,此类比较非但无助于澄清,反而可能扭曲政策辩论。
“单位工作能耗”指标使这一区别变得明晰。通过直接将电力使用与产出挂钩,它能揭示额外的电力消耗是否转化为了成比例的计算能力、速度或吞吐量增长,抑或电力使用的上升并未带来有意义的生产力增益。这将能源辩论的焦点从原始消耗量转向了电力转化为有用工作的效率。
产业界已开始朝此方向努力,开发出诸如“每瓦性能”或“每瓦智能度”等衡量标准。MLPerf Power已成为一项领先的基准测试工具,用于衡量完成特定计算工作负载(如训练一个模型或处理固定数量的推理任务)所需的能耗。对于大语言模型,研究者越来越多地使用“每焦耳生成词元数”(tokens-per-joule)来衡量单位能量产生的语言输出量。在硬件层面,“每瓦浮点运算次数”(FLOPs-per-watt)衡量的是芯片将功率转化为原始计算能力的效率,而新型AI加速器在设计中明确追求最大化这一比值。
在美国,国家标准与技术研究院(NIST)应与能源部(DOE)合作,为衡量AI系统的单位有用工作能耗制定推荐最佳实践。这些最佳实践应侧重于训练和推理环节的工作负载级别生产率,而非总功耗,并可借鉴现有方法,如基于任务的基准测试、每瓦性能测量以及系统级效率指标。例如,相关标准可规定一组代表性AI任务、测量方法以及参考硬件配置,从而能够在无需披露专有模型细节或训练数据的情况下,跨模型和系统比较“单位工作能耗”。
美国还应通过七国集团(G7)和经济合作与发展组织(OECD)等国际论坛开展工作,鼓励各方围绕这些基于生产率的指标形成共识。国际协调一致有助于确保“单位工作能耗”指标成为评估AI系统的共同参考基准,而非导致各司法管辖区出现各自为政、互不统一的衡量体系——尤其是在部分国家正考虑针对AI能源使用出台强制性报告要求的背景下。
批评者认为,用于AI的数据中心挤占了其他具有社会价值的电力用途。随着电力系统日益紧张,本可用于支持家庭电气化、交通电动化或工业脱碳化的稀缺电力,却被转用于运行商业AI工作负载的私营数据中心。从这个角度看,AI不仅增加了电网需求,还与其他优先事项直接争夺有限的容量。这一批评在美国电网扩张滞后于需求增长的地区尤为尖锐。
要理解这一关切在美国的具体表现,有必要先了解美国电力系统的组织架构。美国并非由单一的统一电网供电,而是划分为多个区域性电力系统,各自拥有独立的运行规则、规划流程和可靠性标准。在美国大部分地区,日常电网运营由被称为“区域输电组织”(RTO)或“独立系统运营商”(ISO)的非营利实体负责管理。
诸如中大西洋地区的PJM、中西部的MISO以及加利福尼亚州的CAISO等RTO和ISO,并不拥有发电厂或输电线路。它们的职责是运营电网。它们协调跨州区域电力的实时流动,确保供需平衡,并管理决定谁能够接入系统以及接入条件的技术规则。
这些电网运营商的核心职责之一是确定哪些资源可以向电网输送电力,以及哪些大型用户被允许汲取大量电力。由于电力必须即时、可靠地输送,任何新的连接请求——无论是供应侧的发电厂还是需求侧的大型工业负荷——都必须经过一项被称为“并网”的正式技术审查。这一流程旨在确保新项目不会造成输电线路过载、电压或频率失稳,或增加停电风险。
因此,并网流程起到了一种把关机制的作用。电网运营商会研究拟议项目对变电站、输电线路及其他共享基础设施的影响,并可能在批准连接前要求进行升级改造。这些研究耗时较长且按顺序进行,这意味着项目会被列入队列并依次接受评估。
由于电力接入受制于缓慢、顺序进行的并网流程,且电网本身的扩张也是渐进式的,批评者认为,整个系统吸纳大规模突增需求的能力有限。在此背景下,他们认为,吉瓦级AI数据中心的出现,将稀缺的电力资源倾斜给了私营数据中心部署,而牺牲了其他形式的电气化和清洁能源应用——后者必须在同样受限的系统内竞争。作为回应,批评者呼吁采取措施减缓或暂停新数据中心的审批。例如,弗吉尼亚州曾提出一项法案,旨在暂时叫停新增项目,直至现有并网申请处理完毕,其明确引用的风险便是本已紧张的队列将变得更加拥堵。
许多用于论证数据中心正在“抢占”电网的吸人眼球的统计数据,例如声称数据中心占新增电力请求的90%以上,均源自并网申请队列数据,而这些数据严重高估了实际需求。正如劳伦斯伯克利国家实验室(LBNL)在其2025年《排队报告》中所记录的那样,美国并网队列充斥着投机性且最终不可行的项目。开发商经常为同一项目在不同地点提交多个重叠的并网申请,以便在选址、许可和成本谈判过程中保留选择余地。一旦确定可行地点,其余申请将被撤回,往往一次性从队列中移除数百兆瓦的“容量”。
即便一份撤回的申请从未消耗哪怕一瓦电力,它在并网队列中的存在也会导致电网运营商如同对待真实项目一样,进行复杂且耗时的可靠性研究。这就造成了一个瓶颈:合法的项目,如新住房开发、医院或可再生能源场地,反而被困在这些投机性数据中心的占位申请之后,其电网接入遭到延迟。
正因如此,联邦能源管理委员会(FERC)等监管机构在2023年引入了更严格的队列改革措施,包括提高撤回申请的罚金以及设置基于里程碑节点的研究要求,旨在确保开发商在预留容量前确有实质性的财务承诺。许多RTO和ISO也提高了保证金要求并收紧了场地控制标准。这些改革生效后,尽管新项目的实际需求并未显著下降,但并网队列规模在2024年出现了多年来的首次缩减。将虚高的队列排位等同于实际用电,是将管理流程的拥堵与物理层面的稀缺混为一谈,其风险在于,对文书积压问题做出的反应,仿佛反映的是本地电力供应的真正短缺。
声称数据中心在“抢占电网”的观点,还忽视了运营商正试图彻底摆脱排队序列的趋势。许多开发商并未去争夺稀缺的电网容量,而是加速转向用户侧自备电源解决方案,即在场地内部或附近直接发电或签约购电,以减少对公共电网的依赖。麦肯锡估计,到2030年,自备发电可满足美国高达30%的新增数据中心需求,远高于2023年不足5%的水平,因为企业希望借此规避存在多年的并网延迟。在实践中,这意味着建设能够独立运行的本地化微电网,整合大规模电池储能、现场发电(如高效天然气轮机)以及燃料电池等新兴技术。
即便如此,将需求从公用电网转移出去并未消除并网挑战,而是改变了其形式。用户侧发电、专用可再生能源以及新的稳定电源,要连接、同步或向电网输电,仍需获得电网批准。当新负荷的审批时间线与新电源的并网时间线出现错配,且新负荷与新电源无法在电网运行限制内安全协同时,项目便可能停滞。
爱尔兰正深刻经历这一问题。尽管拥有可观的海上风电项目储备,但该国新数据中心的发展已然放缓,原因在于国家电网运营商EirGrid无法在不增加系统失稳风险(包括暂态故障和频率失衡)的情况下安全接纳更多高密度负荷。2024年,EirGrid警告称,若并网协议持续停滞,可能引发数据中心的“大规模外流”。亚马逊已暂停在爱尔兰的进一步投资,理由是新的海上风电项目何时及如何并网存在不确定性,以及对于数据中心获取能源接入的具体要求缺乏明确指引。并网延迟不仅是技术问题,还可能阻碍投资并削弱一国的数字竞争力。在美国,类似问题同样存在,但供需匹配的速度与可靠性因区域电力市场而异。
政策制定者应将重点放在推广和制度化AI赋能的并网流程上,以缩短大型能源用户和新增电源接入电网所需的时间。虽然试点项目已证明AI能够加速并网研究,但这些成果仍不均衡且高度本地化,缺乏在整个并网流程中常规化推广的明确路径。
美国能源部的“AI促进并网”(AI4IX)倡议是一个有益的起点,但其影响仍受限于规模和范围。按照目前架构,AI4IX主要作为一项试点资助计划运作,支持电网运营商、项目开发商和软件供应商之间的合作,以实现并网流程中离散环节的自动化。例如,它可能资助一个专注于电网容量与影响模拟的项目,利用AI快速评估拟议项目对现有电网状况的影响,从而加快并网批准所需的技术研究。
这些努力是宝贵的概念验证,展示了技术上的可行性,并有助于降低公用事业公司和监管机构采用新方法的风险。但除非其成果能够在各区域得到系统性采纳并嵌入标准的公用事业实践中,否则,此类试点无法实质性减少并网积压。推动普及需要一系列干预措施的组合。
首先,国会应要求公共电力传输提供商采纳并共享包含先进计算工具(包括AI、机器学习和自动化技术)的并网队列管理最佳实践。这一思路的版本之一曾出现在2024年拟议的《能源部人工智能法案》中,该法案要求输电提供商“酌情共享并采用关于使用计算技术……评估和处理并网请求的队列管理最佳实践,以加快出具研究结果”。这些报告应公开发布,既能让研究人员、监管机构和电费缴纳者权益倡导组织对各家公用事业公司的表现进行对标评估,也能对落后企业形成自然的问责压力。重提这一构想将有助于推动AI赋能的并网流程从孤立的试点项目转变为持久、系统性的能力。
其次,FERC应通过改变电网运营商执行并网流程的收费方式,引入并网效率激励机制。RTO和ISO负责审查并网请求,并开展新电源和大型能源用户接入电网所需的技术研究。由于它们通常是不销售电力的非营利实体,其开展此项工作的成本通过经FERC批准的规费和费率回收。目前,无论并网研究耗时多久,这些成本一般都能得到回收——这种模式依赖于传统的服务成本监管,而后者通常来说激励属性不佳。FERC可以改为将部分成本回收与绩效挂钩,例如与研究周期的可量化缩短情况挂钩。这将效仿现有的基于绩效的监管框架,即奖励公用事业公司达成特定的可靠性或效率目标。按照这种方式,无论通过经DOE验证的AI和机器学习工具、流程优化还是其他创新手段,只要电网运营商显著缩短了并网时间线,就应获得奖励。AI赋能的工具尤其前景可期,因为它们提供了一种在整个系统内规模化加速研究流程的途径。
第三,国会应在能源部2025年底启动的“加速送电”倡议基础上更进一步——该倡议旨在加速开发支撑AI驱动的负荷增长和再工业化所需的多吉瓦级能源项目——利用联邦财政支持来激励采用现代化、自动化的并网流程。具体而言,国会应要求,凡依据《通胀削减法案》寻求联邦税收抵免或通过能源部贷款项目办公室寻求债务融资的发电和电网基础设施项目,只要相关区域输电组织或公用事业公司具备可用的标准化、自动化并网申报工具,就必须使用这些工具进行申报。通过将联邦资金的获取与自动化并网接口的使用挂钩,国会将加速该技术的大规模应用,并将AI赋能的并网流程从孤立的试点项目转变为对近期电网扩张最为关键的能源项目的常规实践。
批评者认为,高耗能AI设施的快速增长将不可避免地推高普通家庭的月度电费账单。根据这一观点,与AI驱动型数据中心增长相关的成本,主要通过两个渠道最终转嫁给居民用户:受监管的基础设施成本与趸售电力价格(wholesale electricity prices)。
在美国大部分地区,电力由受监管的公用事业公司供应——这些私营企业或公共实体在划定的服务区域内作为垄断企业运营。由于此类公用事业公司不面临直接竞争,其投资决策和用户电价受到州级公用事业委员会的监管。
2024年5月至2025年5月,美国各地区居民电价平均涨幅 制图:Axios新闻网
当公用事业公司认定需要新建基础设施(如建设输电线路、变电站或对电网进行加固等)以满足日益增长的用电需求时,它必须通过被称为“费率审理”的正式流程寻求批准。在费率审理中,公用事业公司请求公用事业委员会允许其回收成本并获得受监管的回报,并提出如何依据成本归因原则将这些成本在不同用户类别——居民、商业和工业——之间进行分配,该原则主张,用户应按其对系统施加成本的比例付费。
批评者认为,由少数大型数据中心驱动、耗资数十亿美元的电网升级改造工程,其成本正越来越多地被分摊至整个电费基数。在此情景下,新基础设施的成本被嵌入到向居民收取的月度输电费用中。批评者进一步警告称,若数据中心需求放缓或发生转移,这些长寿命资产可能沦为搁置资产,导致居民用户需要为他们并未要求建设的、长达数十年的基础设施债务负责。
公用事业公司并非自产所有销售的电力。在美国大部分地区,它们通过持续拍卖方式运营的区域趸售市场购电。这些市场由PJM、MISO等区域电网运营商运作,它们负责协调跨州区域的电力供需。
在这些市场中,发电厂提交投标,说明其能够供应的电量及愿意运营的最低价格。然后,电网运营商将这些投标按最低价到最高价进行排序,并调度足够的发电容量以满足当时的总需求。这一体系的关键特征在于,所有电力均按满足需求所需的最后一台发电厂所报价格进行结算。这通常是成本较高的电厂,也可能是运行成本高昂但产能足以快速爬坡的天然气“调峰”电厂。即便大部分电力可能来自核电、煤电或可再生能源等较廉价电源,但支付给所有发电商的价格反映的仍是该边际、最后调度机组的成本。
批评者认为,大型AI数据中心因其新增了大量稳定、全天候的需求而影响了这一定价机制。当总需求上升并接近系统可用供应上限时,电网运营商必须更频繁地调用这些高成本电厂以满足高峰或接近高峰时段的状况。从实际角度看,这意味着市场更频繁地以更高价格出清,因为需要更经常地动用昂贵电厂来维持供电。
当趸售价格以此方式上涨时,公用事业公司会将这些增加的成本作为月度账单上增加的购电费转嫁给用户。在批评者看来,居民用户因此面临更高的电价,原因在于数据中心的需求迫使系统更加依赖成本更高的发电方式,即便居民用户并非该新增用电负荷的来源。
与数据中心增长相关的居民电费上涨,主要是一个市场设计失灵问题,而非需求问题。电力市场并不区分不同类型的需求。数据中心使用的一个电子与家用电器、工厂或电动汽车使用的电子并无差别。电网只对总需求做出反应,而不关心是谁在消费。若数据中心带来的需求增长本质上在推高价格,那么无论这种需求在何处扩张,都应出现相似的价格涨幅。
证据表明情况并非如此。SemiAnalysis近期一项对PJM与ERCOT的比较分析显示,尽管两个地区都在经历数据中心快速扩张,但它们的电价走势已然分化。SemiAnalysis估计,在PJM地区,与2024年相比,2025至2026年间容量预留费的飙升将转化为普通居民月度账单上25至30美元的附加费。而在ERCOT,预计不会出现类似的价格冲击。若两个系统经历了相似的需求增长却产生了截然不同的价格结果,那么仅凭需求便无法解释这一结果。差异在于每个系统将预测需求转化为价格的方式。
PJM依赖所谓的容量市场,该市场基于对未来需求的预测来设定价格。它使用一个数学模型估算未来数年的电力需求,然后决定支付多少费用给发电厂业主以保持其设施处于待命状态。实际上,这相当于为确保未来有容量可用而向发电商支付的“预留费”。该成本随后通过电费转嫁给居民和企业。价格与今日实际消耗的电力无关,而是与一家中央规划机构对未来需求状况的估计挂钩。
由于这笔预留费建立在模拟预测而非实际使用基础上,即使预测中的适度调整也可能引发成本的极端飙升。若模型预测AI负荷将激增,公式便会自动触发涨价以确保有足够电厂处于备用状态——即便这些数据中心目前还只是一片空地。在2025至2026年周期中,这一预测机制已导致PJM此类待命支付的总成本较上一年度增长至9.3倍。这造成了总计160亿美元的费用被直接转嫁给居民用户,迫使他们为尚不存在需求的预留电力买单。
相比之下,ERCOT依赖所谓的仅电能市场,发电商仅按其实际生产并输送到电网的电量获得报酬。不存在为保持电厂待命的预付款。相反,该系统利用实时定价来平衡供需。在这一模式下,只有当电力出现物理性短缺时,价格才会上涨。若需求激增,电价在那一刻随之上升,这自然激励发电厂开机发电,并促使投资者建设新容量以获取更高收入。
这一设计限制了投机性需求对价格的影响。预计数据中心增长的延迟或高估不会立即转化为居民成本,因为价格对实际状况而非模型预期做出反应。其代价则是价格波动性更大。在极端需求或供应紧张时期,价格可能急剧飙升。但这些价格尖峰与电网的实时实际状况挂钩,而非基于对未来数年的预测,并且可以通过一系列工具进行管理(本报告其他部分有述)。
这一对比清晰表明,更高的居民电费是市场设计使然,而非数据中心用电本身所致。
要理解为何对AI需求导致趸售电价上涨的担忧并不必然给居民带来无法避免的成本外溢,借用经济学中经典的“鱼市”比喻会有所帮助。
想象一下清晨的本地鱼市。渔民已经归港;当日的渔获量固定,短期内无法增加。供给是完全无弹性的。若突然涌入大量新买家,价格将急剧上升,因为所有人都在争夺同样固定数量的鱼。
电力市场与此情景类似。短期内,发电容量基本固定,因为可用发电厂的数量受限于物理和监管建设周期;许多基荷机组(如核电或大型煤电)无法快速调节出力以应对突发变化。当需求在固定供给背景下上升时,价格会上调以平衡系统。
在一个运作良好的市场中,价格上涨会导致部分买家减少消费或退出市场。例如,一些鱼市买家会直接离开,明天再来或改买鸡肉。正是这种反应限制了价格飙升,并防止成本最昂贵的供应商为所有人设定价格。
然而,在当今的美国电力市场中,需求之所以反应迟钝,是因为零售电价与趸售市场的现实脱钩。大多数美国家庭和数据中心支付受监管的固定电价,这使他们无从感知电力的实时实际成本。由于看不到电价正变得昂贵,他们便不会停止购买。公用事业公司不得不支付尖峰电价,随后通过加收附加费或提高基准电价的方式,将差额“平账”转嫁给所有用户。这将一次市场尖峰转化为了针对整个电费基数的长期价格上涨。
然而,AI需求并非天然缺乏弹性。与家庭或关键服务不同,运行AI工作负载的数据中心可以成为灵活的电力消费者,其灵活性是大多数家庭和关键服务所不具备的。许多AI工作负载——尤其是训练及其他对延迟不敏感的任务——可以被暂停、减慢、推迟或迁移,而不会损失进度。这种灵活性正是国家可再生能源实验室前沿研究的重点,该实验室关于“负载感知型电网管理”的研究表明,数据中心如何在电网承压时期自动降速或暂停训练,将计算任务转移至电价较低的非高峰时段,或将工作负载地理迁移至可再生能源发电过剩的地区。
AI数据中心不仅不必为居民电价不可避免的上涨负责,反而可以通过稳定电网净负荷来减轻本会传导至消费者的价格压力。根据麻省理工学院斯隆管理学院2025年的一项研究,实施灵活、电网感知型工作负载调度的数据中心,可将系统总成本降低2%至5%。当这些大规模用户将其密集的AI训练任务转移至非高峰时段时,它们便拉平了需求曲线,从而减少电网对昂贵、高排放调峰电厂的依赖,而正是这些电厂通常为所有其他用户设定了高昂的趸售电价。在此情境下,数据中心不仅支付了自身应承担的费用,还作为一种稳定力量,为整个电费基数内的用户降低了平均电力成本。
阻碍数据中心发展或将其成本社会化均摊,两者均是失败的政策选择。任务在于确保AI基础设施以反映实际系统状况的方式融入电力市场,而非迫使居民家庭承担本可避免的风险。
政策制定者应恢复电网状况与大规模电力消费之间更为清晰的关联。当价格无法反映实时系统约束时,即便是灵活的需求也会表现得如同固定负荷一般。美国能源部在其2024年《商业化腾飞之路:虚拟电厂》报告中强调了价格响应型需求的作用,指出让大型负荷直面真实的电力成本,可以释放电网日益需要的灵活性。使数据中心能够作为自我调节、调整用电的“虚拟电厂”运行,可以让AI增长支撑电网稳定,而非将短期压力转化为居民永久的成本增长。
信息技术与创新基金会2025年的报告《美国需要数据中心,数据中心需要能源——但这未必是个问题》,向能源部、联邦能源管理委员会以及数据中心自身提出了若干建议,阐述如何支持数据中心成为高峰需求管理的合作伙伴。
一项尤为重要的改革是要求区域输电组织探索如何实时播报透明、机器可读的拥塞和价格信号。若数据中心的工作负载调度器能够预见到即将来临的价格尖峰,它便可自动推迟非必需的计算任务,或在区域间转移负荷。当大型负荷在电网压力峰值期间减少用电时,它们便降低了调度那些为整个市场设定出清价格的最昂贵边际发电机组的需求。
对电网可靠性的担忧往往是高度本地化,而非系统性的。电力中断和设备故障通常发生在变电站、馈线或变压器等特定瓶颈节点,这些老旧基础设施的设计初衷并非应对快速、集中的负荷变化。尽管AI需求的规模给这些资产带来了基础性压力,但数据中心仅是覆盖交通、建筑和工业等更广泛电气化浪潮中的贡献者之一(如关切一所述)。
AI工作负载带来的更具独特性的可靠性挑战,源于其用电行为本身的特性。图6展示了谷歌提供的时序数据,直观呈现了这种动态。
图中纵轴为数据中心功率,横轴为时间。数据显示,AI工作负载造成了接近15兆瓦的负荷波动,导致功率从约1兆瓦飙升至15兆瓦。这种波动源于图形处理器的同步运算。在任务执行期间,所有图形处理器以紧密协同的方式工作。这导致在活跃计算阶段功耗极高,而在图形处理器等待数据或彼此同步时,功耗则出现短暂、急剧的下降。这意味着电力输送系统必须按照远高于平均水平的峰值来规划容量。
因此,对于AI工作负载因极度波动性而影响电网可靠性的担忧,特别是其行为维度,是政策制定者应当正视的有效关切。
实践中,AI工作负载主要分为训练和推理两大类别,二者与电网资产的互动方式存在根本性差异。分别审视这两类负载,可以清晰揭示其负荷特性如何转化为对电网基础设施的不同压力,以及可靠性风险实际源于何处。
训练工作负载是一个有限过程,一旦模型达到目标精度水平即告结束。训练期间,图形处理器经历若干不同阶段。在正向传播阶段,图形处理器以持续的高功耗处理数据。紧随其后的是反向传播阶段,模型更新参数,功率需求以短脉冲形式激增。系统还会周期性进入检查点阶段,即模型保存进度的短暂停顿,期间功耗急剧下降,如同电子游戏中的暂停画面。即便如此,图形处理器也并非完全闲置。它们通常维持较高的基线%,以便能立即恢复计算。
持续高负载、快速尖峰和部分闲置之间的反复转换,形成了AI训练特有的“锯齿形”功率曲线。阿尔伯塔大学的李玉琢和李运帷在2025年发表的论文《AI负荷动态:电力电子视角》中对此进行了阐释。研究者在微调OpenAI的GPT-2模型时测量了检查点事件期间的图形处理器功耗,并生成了功耗随时间变化的时序记录。数据显示图形处理器功耗处于闲置状态,然后突然跃升至一个高位、参差不齐的活动平台(如同锯齿刀刃),随后又骤然回落——这一模式在整个训练运行期间反复出现。对电网运营商而言,这一模式之所以重要是因为它引入了频繁且陡峭的负荷转换,而非平滑或可预测的需求曲线。
与锯齿形负荷曲线相关的主要可靠性风险是热循环。变压器本质上是一个装满绝缘油、内含铜绕组的大型容器。当数据中心汲取巨大的兆瓦级电力时,铜绕组升温并物理膨胀。当工作负载到达检查点、需求急剧下降时,绕组冷却并收缩。在AI训练环境中,这种加热与冷却循环每天可能发生数十次。反复的膨胀与收缩对铜绕组及其周围的绝缘纸施加机械应力,逐渐导致材料变脆、开裂。这一过程被称为“热疲劳”,其原理如同反复弯折回形针直至将其折断——导致断裂的并非总重量,而是重复运动。这些转换可能使变压器在数月内承受相当于数年的机械疲劳累积。
相比之下,推理工作负载并非有限任务,而是持续进行的服务。用于推理的图形处理器在等待用户请求时处于低功耗闲置状态。当请求到达时,图形处理器迅速爬升至接近峰值功率以尽快处理请求,任务完成后随即回落。这一循环不断重复,产生的是短促的高功率脉冲,而非持续负荷。
李玉琢和李运帷还研究了Meta的Llama 3.1模型运行推理操作时的功耗模式,发现功率消耗在闲置与峰值之间以几分之一秒的周期循环往复。推理的显著特征并非其平均功率需求,而是这些负荷变化的速度与频率。其模式是在高、低功耗间快速闪烁,从未完全稳定,这与训练工作负载和传统数据中心计算均显著不同。
对于推理工作负载,主要压力落在电网的电子控制系统上——即那些维持电压稳定并决定何时为安全起见切断电路的设备。AI推理请求的急速激增可能导致被称为“电压暂降”的电压瞬时跌落。可将电网试想成水管:若有人每半秒就突然猛开一个巨大阀门又猛然关闭,整个管道系统的水压便会剧烈波动。在电网中,这种不稳定的压力可造成两类具体损害。首先,它可能导致电子疲劳,因为变电站的传感器和电容器被迫每天数千次对抗这些毫秒级速度的压力波,致使其内部元件过早老化。其次,由于这些AI尖峰的速度和强度酷似短路,电网的自动安全断路器可能被误导而跳闸,造成误报性停电。
为保护美国电力系统的可靠性,政策制定者应建立激励机制,奖励数据中心内化其负荷波动所带来的成本。这些激励应特别针对电网基础设施面临的两大关键物理风险:热疲劳和电压不稳定。
首先,监管机构应奖励使用先进软件来协调计算任务、降低峰值电力压力的行为。例如,谷歌的DeepMind已应用AI来优化其数据中心所需的海量电力。通过持续分析与服务器负载、电力分配以及冷却设备(如泵、冷却机和冷却塔)能耗相关的大量电气数据,其AI系统学会了进行精确的实时调整,以更高效地运行这些系统。仅此一项能力就使冷却能耗降低了40%,转化为数据中心整体功耗下降15%。同样,Emerald AI等初创公司已证明,软件“中介”可在电网承压高峰期令AI集群的功耗降低25%,且不违反性能保障承诺。
其次,监管机构应激励使用现场缓冲装置以维持电压稳定。以微软为例,该公司已开始在其较新的园区推广此类技术。传统上,数据中心电池大部分时间处于闲置状态,等待停电时启用。微软的系统则重新利用这些大规模锂离子电池组,以实时响应电网需求。凭借约80毫秒的反应时间,该设施可从电池“汲取”电力以稳定电网频率,或“吸收”由AI工作负载突发引起的微尖峰。
遗憾的是,尽管上述案例证明了技术上的可行性,但现有政策框架对于大规模鼓励此类行为作用甚微。《AI行动计划》呼吁数据中心通过更优化的管理技术、输电升级改造以及大型用户在关键时段管理用电的新方式,“尽可能优化现有电网资源”。但该计划止步于创建具体的激励机制或性能标准,未能奖励数据中心投资于内部负荷平滑、功率变化率控制或增强可靠性的电力管理。
政策制定者不仅应将经过验证的负荷曲线管理视为一种支撑电网的服务并据此设计激励措施,还应支持由数据中心运营商、公用事业公司和区域输电组织合作制定的行业行为准则,明确界定现场缓冲、负荷平滑和功率变化率控制的标准。国会应指示联邦能源管理委员会将对准则的遵守作为获得有利并网条款的条件,同时财产险和营业中断险的承保人应向证明合规的运营商提供更优惠的保费——由此形成并行的监管与市场压力,共同推动该准则的大规模采用。
根植于热力学的一个现代计算基本事实是,处理器消耗的几乎所有电能最终都转化为热量。随着AI工作负载的功耗日益增加,排热挑战已成为数据中心设计的核心约束。数十年来,大多数设施依赖风冷系统,使用大量经过调节的空气来散发热量。在服务器功率密度较低时,该方法是可行的。但对于热量产生强度更高、空间更集中的现代AI硬件,风冷已日益力不从心。
为应对这些热负荷,数据中心运营商正迅速转向液冷系统。水及其他专用冷却液在吸收和带走高密度AI服务器的热量方面,效果远优于空气。这一转变提高了能源效率,并使更高性能的计算成为可能。但它也引发了环境关切,尤其是围绕水资源的使用。
这些关切可分为两个相关类别。第一类是地方性和生态性的。液冷系统可能增加特定地点的取水量,引发人们对与市政供水、农业或当地脆弱生态系统相竞争的担忧,尤其是在水资源紧张地区。社区担心大型数据中心可能加剧缺水状况、给基础设施带来压力,或将水资源从基本用途中分流。
第二类关切是系统性和认知层面的,焦点在于水资源的使用如何与AI活动关联呈现。媒体报道越来越多地将数据中心的耗水量转化为生动的单次任务类比,将日常AI使用描绘为对环境的一种浪费。《》2024年9月一篇题为《每封邮件一瓶水:使用AI聊天机器人隐藏的环境代价》的文章引用估算数据称,训练GPT-3的耗水量堪比生产100磅牛肉所需的水量,而Meta训练其LLaMA-3模型估计使用了2200万升水,文章将其等同于生产超过4000磅大米。对于AI使用,文章引用估算称,用GPT-4生成一封100字的电子邮件所需能耗,大致相当于半升水。
与关切二中讨论的“抢占电网”批评颇为相似,这些比较将AI的资源使用框定为本质上低价值或社会性浪费,隐晦地质疑AI的益处是否值得消耗稀缺的自然资源。
许多关于数据中心用水的说法所依赖的比较和计算方式经不起仔细审视。从“每封邮件耗水量”的估算,到将AI系统与牛肉生产或主要农作物进行类比的种种说法,往往建立在前后不一致的假设、不匹配的单位或选择性的核算方式之上,从而夸大了AI工作负载的显见影响。
以训练一个诸如GPT的模型耗水量堪比生产100磅牛肉这一比较为例。问题未必在于数字本身,而在于比较的单位。它所衡量的是一次性的计算过程——其产出之后可能被使用数十亿次——却与100磅牛肉作比,而每当人们需要时都必须重新生产这部分的牛肉。这两者并非可比较的单位。
更公允的比较应着眼于整个设施。以xAI位于孟菲斯的Colossus 2为例,这是全球最大的AI数据中心之一。一项自下而上的估算显示,其全年的水足迹约为3.46亿加仑。虽然这听起来非常庞大,但若计入饲养肉牛所需的水量,单是一家高人气的In-N-Out汉堡门店的年度总水足迹便约为1.47亿加仑。换言之,一座最强大的数据中心所消耗的水量,仅相当于两家半快餐店的水足迹。然而,却没有人呼吁暂停开设汉堡店以保护当地水资源。
美国主流媒体报道的“单次任务”式表述框架令情况雪上加霜。批评者所用的方法很简单:取一座设施的总用水量,除以其处理的查询次数,然后将结果作为生成一封邮件或一张图片的水资源成本予以呈现。但数据中心的冷却系统并不会为每一次独立请求而开启或关闭。无论该设施处理的是10次查询还是100亿次查询,冷却系统都以大致相同的强度连续运行。为维持运行温度而消耗的水量,无论如何都会发生。将这部分固定开销的一部分归因于每一次查询,是在暗示多发一封邮件会导致冷却塔抽取更多水,而实际情况并非如此。单次任务数据并非衡量一次查询实际成本的指标。它只是设施的总水费除以其产出,被以一种让AI日常使用看似对环境有重大影响的方式呈现出来,而其背后的数学逻辑并不支持这一结论。
其结果是,这场辩论因反数据中心的言论而部分失真,并未立足于可靠证据。AI数据中心确实消耗水,且在部分地点,这种消耗可能引发合理的关切。但一场严肃的讨论需要超越虚假叙事,聚焦于水资源风险的真实决定因素。
AI工作负载产生的热量确实远超传统计算。要量化AI工作负载增加的冷却需求,方法之一是考察名为“热设计功耗”(TDP)的指标。TDP基本上是芯片制造商可为热工程师提供的一项芯片级规格参数。它是一个功率数值,而非温度,表示在典型负载下冷却系统必须能够带走的热量(以瓦为单位)。例如,一颗TDP为125瓦的CPU,意味着散热器应能够带走125瓦的热量。
然而,所有论断都聚焦于用了多少水,而非在未获补充的情况下用了多少水。这是一个关键区别,因为许多公司都在主动发起水资源回补计划以抵消其消耗。谷歌、微软、Meta和亚马逊均已承诺到2030年实现“水资源正效益”,即计划回补环境的水量将超过其消耗量。
《》的文章指出,谷歌2024年环境报告显示其“仅回补了所消耗水量的18%——远低于其设定的2030年120%的目标”。但其于6月发布的2025年报告显示,该比例已提升至64%——若保持这一变化速度,它将在2027年达到120%。这一进展是通过资助100多个地方流域管理项目实现的,例如恢复加州中央谷地的湿润草甸以充当地下水补给的天然海绵,以及投资于科罗拉多河流域的灌溉效率提升。这些项目被战略性地布局在其数据中心所处的同一批水资源紧张区域,有助于确保回补发生在真正受到影响的社区。
这一进展也说明了为何仅看回补量并非正确的衡量标准。那些仅聚焦于总耗水量数据的报道虽然引人注目,却分散了政策制定者本应关注的真正问题,例如回补的水是否水质良好,是否有助于周边生态系统的健康。如果水在返回水源时的温度大幅升高,便可能造成热污染。这种升温的水会降低水体含氧量并危害当地野生动植物,从而破坏脆弱的水生生态系统。
此外,若大量取水速度过快,或取自本就水资源紧张的区域,则可能扰乱河流的自然流量,并对农业和饮用水等其他基本用途的本地供应造成压力。真正重要的是AI基础设施与其赖以生存的流域健康之间的平衡。
在关于数据中心用水的讨论中,很大程度上被忽略的一点是AI工作负载引入了根本性的全新热挑战。AI基础设施不仅仅是产生更多热量,它还以剧烈波动的脉冲形式以及由先进芯片封装所创造的、难以触及的新热点区域产生热量,使冷却系统超出了其原始设计的管理能力。
图7是一幅时序图,展示了谷歌TPU芯片温度随时间波动的状况,将基准情景与应用缓解技术的情景进行了对比。代表TPU温度基准的红线显示出宽幅且剧烈的温度区间,伴有高达20摄氏度的急剧快速波动。蓝线代表缓解后的情景,显示了如何通过软件控制来主动平滑芯片上的功耗,将温度波动的剧烈程度降低约50%。
图7:谷歌TPU芯片的温度波动(红色为基准情景,蓝色为应用缓解技术的情景)
随着芯片功耗的快速飙升与下降,其温度也随之出现同样快速且显著的波动。这些热波动的剧烈程度会因工作负载类型(训练与推理)及具体任务的不同而有显著差异。
重要的是,这并非整颗芯片的平均温度,而是单个裸片上最热点的温度,工程师通常称之为“热点温度”。这是最有可能率先失效的位置,也是快速波动影响最大的地方。即便整颗芯片的温度看似温和,热点也可能每几秒就大幅波动一次,这可能导致芯片性能退化甚至失效。这是因为芯片由多种材料(如硅、铜和焊料)制成,它们在升温和冷却时的膨胀与收缩速率各不相同。剧烈波动的温度导致这些材料不断膨胀和收缩。久而久之,这种由温度波动带来的持续应力,会导致焊点和互连处形成并扩展微观裂纹,最终造成完全失效,恰如反复弯折一根金属线终致其折断。
AI工作负载还在改变这些热点在芯片上的出现位置,给热工程师带来了新挑战。在传统服务器CPU上,主要热点可能位于主处理核心所在之处。然而,现代AI芯片采用先进方法将元件靠得更近,要么将它们并排置于一个小型共享基板上,要么直接层层堆叠。这种新的集成水平正催生出新的热点。
AI芯片上内存的位置便是新热点的一个典型例子。随着AI模型日益复杂,支持它们的系统要求内存具备更大容量、更快吞吐量、更低延迟和更优能效。为满足这一需求,一项关键创新是高带宽内存(HBM),即如图8所示,将多层内存芯片垂直堆叠在一起。这一关键发展有助于解决处理器速度与所通信内存速度之间的“内存墙”瓶颈。
挑战在于,热量只能沿两个主要方向散逸:向上传至散热器,或从芯片边缘侧向导出。堆叠中间层的内存实际上处于“被困”状态。由于上方有层叠阻挡,它们无法轻易向上释热;向下亦然。堆叠中上方或下方芯片的热量也会传导至这些中间层,像水坑中的水一样既垂直又侧向扩散。结果堆叠的中心距离任何散逸路径最远,成为温度最高的点位。
不断攀升的TDP、快速的热波动以及AI芯片上新的热点位置,这些复杂挑战说明了为何传统冷却方法已不再够用。当数十颗这样的芯片被装入一台服务器,数千台服务器又组成一个数据中心时,问题便不只是累加性的,而是倍增性的。芯片级产生的热量逐级传导放大,使传统风冷系统不堪重负,迫使基础设施堆栈的每一层级——从直接芯片液冷到整个数据中心的热管理设计——都必须进行创新。
冷却是运营数据中心的第二大开支,仅次于电力。因此,运营商有强烈的动力去降低这一成本。从芯片封装到机架设计,从AI驱动的热优化到城市规模的区域供冷,种种创新正在重塑数据中心管理热量的方式,同时降低能耗与用水。
从芯片级创新说起,各公司正在探索直接内置于芯片封装本身的冷却方式。高带宽内存领域的领先企业SK海力士,采用了一种名为“模塑底部填充”(MR-MUF)的专有技术,用一种导热材料填充堆叠芯片间的微小气隙,使热量能更高效地散逸,保持芯片以更低温运行。与此同时,台积电正在开发一项名为“集成微冷却器”(IMC-Si)的技术,即在硅中介层本体上蚀刻出微小的流体通道。冷却液流经这些通道,而通道距离上方发热晶体管仅有数百微米之遥,从而在热量扩散至芯片其余部分之前便实现了极为高效的排热。
在服务器层面,最显著的进步是直接芯片液冷(DLC)。它旨在通过在CPU和GPU正上方放置由铜或铝制成的薄型金属冷板来带走热量。每个冷板内部都有微细通道供冷却液流过,使得金属能够吸收芯片热量并将其传递给流体。冷却液绝不接触电子元件,仅在密封的冷板内流动。
所用液体的类型各有不同。虽然水是优良的热导体,但它同时也导电并可能腐蚀部件。为防止损坏,数据中心使用经特殊处理的去离子水。一旦冷却液吸收了芯片热量,被加热的液体便被泵送回冷却液分配单元(CDU)。在那里,一个液-液热交换器将热量从服务器冷却液回路中带走,而两种流体互不混合。冷却后的液体再被送回芯片,循环往复。最终,提取出的热量被排放至系统外部。英伟达最尖端的机架架构已将直接芯片液冷作为标准配置。其GB200 NVL72机架级系统容纳了72颗GPU和36颗Grace CPU,芯片上直接安装有冷板,并内置了CDU。
另一项日益受关注的服务器级创新是液体浸没式冷却。此方式将整个服务器完全浸没在装满非导电介电液的容器中。由于液体不导电,服务器可在完全浸没的状态下运行,且液体直接吸收所有部件(而不仅仅是CPU和GPU)的热量。浸没式冷却有两种形式。在单相系统中,液体的表现很像散热器中的水:它吸收热量、升温,然后被泵送至冷却单元降温后再循环回来。在两相系统中,液体被设计为在相对较低温度下沸腾。当部件发热时,与之接触的液体瞬间转化为蒸汽,将热量向上带走。蒸汽随后在容器较冷表面重新冷凝为液体,滴落回底部以重复循环。这种沸腾-冷凝回路使得两相冷却在热量产生的源头就近带走热量方面极为高效,但也需要更专用的液体和设备。
数据大厅层面的策略是绝热冷却,即利用蒸发来降低空气温度。在此方法中,外部空气在进入设施前被吸入穿过湿帘或经细雾喷洒。随着水分蒸发,空气得以冷却,这股较凉的空气随后在数据大厅内循环,以吸收服务器的热量。由于该过程避免了耗能巨大的冷却机组,在蒸发效果最佳的干燥气候下,它成为一种高效的选择。然而,其代价在于绝热系统需要可靠的水源供应,其可持续性取决于水的来源地和取用方式。
这些创新有助于提升数据中心在能源和水资源方面的负责任程度。通过直接从芯片、服务器和机架捕获热量,它们大幅减少了对于高能耗空调和风扇的需求,使更多电力能够用于计算本身。
热优化是数据中心用以优化冷却运行并降低成本的一项策略,即通过实时动态地将冷却输出与设施的IT负载相匹配,防止过度冷却。一组机架级传感器持续采集温度与功率数据,并输入AI系统,后者自动计算并对冷却单元、风扇及水泵进行精准调节。这确保了仅投入必需的冷却量,省却了人工干预并最大程度减少了能源浪费。
西门子是此类系统的领先供应商,已在金融数据中心部署其“白空间冷却优化”方案,采用了数百个无线机架级传感器。在一处设施中,该系统将运行中的冷却单元数量从72台削减至35台,并将冷却能耗降低约70%。
区域供冷是一项超越单个数据中心管理、上升到城市尺度协同冷却的策略。各设施不再依赖自身设备,而是由一座集中式工厂生产冷冻水,通过地下管道输送至相连的楼宇网络。这使得数据中心无需安装和维护自身高能耗的冷却机组与冷却塔,将冷却需求外包给一个更高效的大规模系统。
一个突出实例是加拿大多伦多由Enwave能源公司运营的“深湖水源冷却”(DLWC)系统。Equinix在多伦多的数据中心是该系统的主要用户。DLWC系统从安大略湖深处抽取冰冷湖水,泵送至中央交换站,通过热交换器将冷量传递至服务于市中心楼宇的闭式循环系统。借助这一稳定的天然冷源,系统大幅减少了对机械制冷机和冷却塔的需求。如今,该系统已连接多伦多超过180座建筑,据Enwave报告,每年可节约2.2亿加仑的水。
在美国多个州、科威特、韩国、印度、西班牙等水资源压力高或极高的地区已经建成或规划建设的数据中心周边区域卫星图 制图:彭博社
许多最大的AI数据中心运营商已承诺到2030年实现“水资源正效益”,这是一项雄心勃勃且值得欢迎的承诺。但若无一套公认的标准来规定如何衡量用水以及如何核实回补量,这些承诺便难以评估。一家公司可以有凭有据地报告其向“水资源正效益”迈进的进展,同时衡量的却是与同行全然不同的内容。
各公司在核算范围上做出不同选择。有的仅计入现场冷却塔直接蒸发的水量;有的还计入了其供应链中蕴含的水,例如用于制造服务器内芯片的超纯水。有的仅计算取自河流和含水层的淡水,而另一些则将喂养设施附近肉牛的作物所吸收的雨水也计算在内。其结果便是,两家公司均可声称正按计划迈向“水资源正效益”,但衡量的却是截然不同的事物。
国会应指示美国国家环境保护局(EPA)与美国国家标准与技术研究院(NIST)合作,为大型数据中心制定一套标准化的水资源核算方法——明确规定必须报告哪些消耗类别、如何验证回补声明,以及净消耗量应如何根据实际取水所在流域的紧张程度进行加权——因为在易干旱的亚利桑那州与水资源充沛的俄勒冈州或华盛顿州,等量用水的意义大相径庭。
如前所述,用水并不等同于对水造成损害。但在水资源紧张的特定地区,取水行为本身——即便事后进行了回补——仍可能耗尽当地含水层、减少河流流量,并给社区赖以获取饮用水和进行农业灌溉的水源供应造成压力。一个汲取亚利桑那州或西得克萨斯州本就紧张含水层的数据中心,其所呈现的风险状况,与一个在水源充沛的太平洋西北地区运营的数据中心截然不同。
国会应指示EPA,利用现有联邦干旱与水资源短缺数据,识别并划定水资源紧张区域,并在这些区域内设立针对性激励措施,鼓励数据中心采用低取水冷却技术。对于同等规模的设施,湿式蒸发冷却、干式冷却与混合式绝热冷却系统的选择,可产生截然不同的取水状况。凡是选址于水资源紧张区域的数据中心,政策制定者均应鼓励使用低取水替代方案、将再生市政废水作为冷却水源,以及仅在气温最高时段启用湿式冷却的混合方式。
政策制定者应要求无法切换冷却系统的水资源紧张地区数据中心报告水资源生产率
并非所有位于水资源紧张区域的数据中心都能立即切换至低取水冷却技术。改造冷却基础设施成本高昂、技术复杂,且在某些情况下受限于设施的既有设计而无法实施。对于这些运营商而言,短期内最具可操作性的杠杆是最大化从每抽取一加仑水中所获得的计算价值。
为说明这一点为何重要,设想同一水资源紧张区域内有两座AI数据中心在处理相同的工作负载。两者采用相同的冷却架构,每小时取水量相同。但第一座运行的是较老旧、优化不足的软件,耗时100小时完成任务;第二座运行的AI技术栈效率更高,仅用20小时即告完成。两者每小时取水量相同,但第二座交付完全相同产出所消耗的总水量仅为第一座的五分之一。在一个每加仑水都至关重要的地区,这一差别意义重大。
国会应指示NIST为数据中心开发一项水资源生产率指标——衡量单位取水量的计算产出——并要求在EPA划定的水资源紧张区域内运营的设施据此进行报告。这将为尚无法过渡至低取水冷却的运营商确立问责机制,同时激励他们最大化所消耗的每一加仑水的价值。
政策制定者应转变观念,将数据中心热量从需要设法消除的废品,视为可供收获的社区资产。高密度AI集群对此尤为适合,因为液冷系统所产生的热能流比传统风冷设施更为集中、稳定。
都柏林理工大学塔拉校区与邻近亚马逊云科技(AWS)数据中心的合作,为这种协同效应提供了蓝图。AWS数据中心的多余热量通过其水基冷却系统被收集起来,该系统产生一股持续稳定的温水。随后,这些水通过隔热的区域供热管道被泵送至塔拉校区,热交换器将能量传递至该校现有的宿舍和教学楼供暖系统。该系统如今已承担该校大部分的供暖需求。
诸如此类的安排创造了一种良性循环。对数据中心运营商而言,输出热量降低了冷却需求与运营成本。对社区和机构而言,为本地宿舍、医院或温室供暖,降低了它们对化石燃料锅炉的依赖并减少了能源开支。在系统层面,热量再利用将AI基础设施从地方性负担转变为共享资产。这样的机遇在阿巴拉契亚等地区尤为显著,一份2026年的报告发现,数据中心的余热足可为整座城镇供暖、通过社区温室供应新鲜农产品,并支持在退役的燃煤电厂原址上进行产业协同布局。
因此,政策制定者应通过减少阻碍大规模热量再利用的实际障碍,支持将数据中心整合至区域供热网络。在许多情况下,挑战并非技术可行性,而是协调问题与前期成本问题。将余热输送至场外需要基础设施——如捕获热能的热交换器、输送热水的水泵以及将其递送至邻近楼宇的隔热管道——而单个项目往往难以独自筹资或获得许可。
政府可通过协助覆盖这些前期基础设施成本,简化热量输送至数据中心围栏之外所需管道与设备的许可流程,发挥催化作用。同样重要的是,政策制定者可以明确回收热量的监管待遇,使运营商和本地机构能够签订长期协议,而无需担忧热量传输是否会触发公用事业式监管、转售限制或新的合规义务。
政策制定者还应要求围绕热量再利用增强透明度与规划。作为选址与环境审查流程的一部分,可要求新建大型数据中心评估附近的校园、医院、住宅开发项目或工业设施是否能够切实利用回收热量。标准化的评估与缔约方式,将使社区围绕这一资源进行规划变得更为容易,也让运营商能够从一开始便将热量再利用纳入设施设计。
数据中心已成为公众对AI经济焦虑情绪的避雷针。但其带来的风险——从居民电费上涨到电网不稳定,再到地方水资源压力——并非AI技术本身所固有。它们是基础设施系统仍在模拟时代规则下运行的必然结果。当今的摩擦源于:仅追踪原始电力和水资源投入却忽视产出效率的衡量框架;将峰值成本社会化而非予以明确价格信号的市场设计;以及将行政流程拥塞误认为物理资源稀缺的规划流程。
美国所面临的选择并非在技术增长与环境治理之间二选一。若政策框架得当,AI基础设施能够强化而非加重电网负担,稳定而非推高电价,并将热量和灵活需求转化为系统资产。正确处理好数据中心的问题并非是要给AI设限,而是要更新那些主导能源、水资源及基础设施绩效如何在数字经济中被衡量、定价与管理的制度体系。
本文系观察者网独家稿件,文章内容纯属作者个人观点,不代表平台观点,未经授权,不得转载,否则将追究法律责任。关注观察者网微信guanchacn,每日阅读趣味文章。
4月16日,辽宁大连庄河大营镇附近一座山上,8岁男孩孙典锋与家人爬山挖野菜时,发现大片问荆草和含云母的石块。“爸爸,这座山下有黄金!”听到儿子的话语,孙先生立即与儿子通过AI智能助手比对验证,结果高度吻合。
经纬之间 苏港相连——“文明遇·鉴:锦绣江苏”文化交流和产业推介活动侧记
“经纬里的江南”展览展销活动在香港嘉里酒店举行。 记者 邵丹 摄“经纬里的江南”展览展销活动在香港嘉里酒店举行。 记者 邵丹 摄千山一脉心相契,苏港和鸣谱乐章。4月14日至15日,“文明遇·鉴:锦绣江苏”文化交流和产业推介活动在香港举行。
28岁外国男子在云南哈巴雪山失联25天,39岁救援队员陈延寿搜救时突发状况不幸遇难
4月21日,云南省瑞丽市蓝天救援队发布消息:我队队员陈延寿在执行香格里拉市哈巴雪山救援任务中,不幸因公牺牲。2026年4月20日凌晨四时许,我队队员陈延寿在香格里拉市哈巴雪山大本营区域(海拔4300米)执行搜救任务中突发状况。
安徽53岁服刑人员在监狱突然死亡,检察院认定“正常死亡”后重认“非正常死亡”,狱警一审因虐待被监管人员罪获刑,其已提出上诉
近日,拿到检察院的变更起诉书后,困扰谢先生将近9年的父亲谢某中在狱中遭虐待死亡一案终有了新进展。2017年1月15日,谢某中在安徽省阜阳监狱突然死亡。
18秒教会你我用了七年的绷带打脚方法,运动人士必备!#绷带 #崴脚 #运动防护 #脚踝防护 #运动必备
76岁洪金宝被指暴瘦,儿子洪天明回应:做了3次手术,手术期间不能吃东西
4月19日,香港尖沙咀海滨长廊迎来了第44届香港电影金像奖红毯,洪金宝携妻子参加。此次洪金宝身负双重身份:既是红毯嘉宾,也是本届“终身成就奖”得主。不少网友发现,洪金宝相较之前瘦了很多。
文/心语小桥 口述/刘红说来大家别笑,女人过了五十岁,其实心里比谁都清楚,婚姻这碗饭已经冷了。可一个人久了,总觉得屋子太空,饭桌上也少了说话的伴。想着不为别的,就找个人一起搭伙过日子,互相有个照应。我叫刘红,50岁,算中规中矩的一个普通女人。
我和我家那位,结婚二十三年了。夏天开空调,他把温度调得低低的,然后理直气壮地钻过来:“冷,抱一下取暖。” 冬天更不用说了,整个人像只大号的暖水袋,从背后贴上来,下巴抵在我肩膀上,呼吸打在我脖窝里,痒得要命。
周明远二十八岁结了婚,可谁也没想到,他的新婚夜不是红烛暖帐,而是一张医院诊断书,把两个人刚搭起来的日子一下推到了悬崖边上。 在村里,男人到了这个岁数还没娶上媳妇,别人嘴上不说,背后早就把闲话嚼烂了。周明远这些年听得多了,耳朵都快起茧子。
我妈邹玉霞干的最狠的一件事,就是在我和吴涛领证前,逼着我把名下四套房全做了婚前财产公证,后来事实证明,她不是心眼多,她是替我把命门先护住了。 我妈这个人,说话向来不爱绕弯子。
电子邮箱: facai@126.com
热线电话: 0755-89800918
公司地址: 深圳市南山区粤海街道高新区社区深圳湾创新科技中心2栋A座22层栋A座22层