返回上级

中国信通院杨硕等:绿色算力定义及关键技术研究

中国信通院

时间:2024-06-12

一、引言

我国算力规模持续增长,截至2023年6月,我国在用数据中心机架总规模已超760 万标准机架,算力总规模达到197 EFLOPS,围绕算力枢纽节点建设130 条干线光缆,存储总规模超过1 080 EB。算力的发展一方面可以帮助产业结构不断优化升级,如激发工业互联网工业制造“引擎”的赋能作用,辅助智慧城市建设,实现智慧交通、智慧医疗、智慧教育、智慧文旅等一系列开放应用场景;另一方面,算力的广泛应用也不可避免导致了电力资源大量消耗和碳排放强度的增加。2022年,我国数据中心能耗总量为1 300 亿kW·h,较2021年增长约200 亿kW·h,约占全国耗电规模的1.5%;到2030年,用电量预计将突破3 800 亿kW·h,碳排放量也会进一步增长。发展绿色算力已经成为我国建设数字经济底座和展现大国担当的重要命题,推动算力领域绿色技术创新,更是决定算力产业发展持久稳定的关键。

二、绿色算力定义剖析

一)当前对于绿色算力的探索

《算力基础设施高质量发展行动计划》把促进绿色低碳算力发展列为重点任务,具体措施包含提升资源利用和算力碳效水平、引导市场应用绿色低碳算力、赋能行业绿色低碳转型等。

在此之前,产业界对绿色算力也有一定探索。有观点认为,绿色算力指以整机为管理对象,评价其单位碳排放下的负载与业务输出,即服务器单位碳排放下能够输出的算力,核心是衡量计算系统从部件到整机再到上层应用全堆栈的计算能效,考验系统厂商系统架构设计、性能优化、散热制冷的创新能力。还有观点认为,绿色算力是算力的绿色低碳追求,可通过推进算力生产、算力运营、算力管理、算力应用等层次的绿色化来实现。

综合来看,产业界已明确部分举措对于实现绿色算力是关键可行的,但针对绿色算力的定义行业上下仍未形成广泛共识,各主体只聚焦其自身涉及的业务范畴提出相对狭义的绿色算力定义,而对于产业整体的绿色发展指导意义有限。产业各相关方无法根据现有定义界定其生产或应用的算力就是绿色算力,更无法运用这些定义指导其生产经营。因此,对于绿色算力需要更为深入的认知。

对绿色算力的新认识

目前,对绿色算力的研究与分析文献还比较少,仍没有一个公认的定义,但相似产业之间具备发展趋同的特征。本文将从两个不同角度类比辨析绿色内涵,给出绿色算力定义。

1.类比绿色电力

将绿色算力与绿色电力的发展和理论进行比较,可以更加深入了解绿色算力形成的前后逻辑。在工业经济时代,经济发展情况可以用电来衡量。到了数字经济时代,算力是衡量经济发展的重要方式。具体而言,电力是工业经济的基础,催生出了电力设备(如电话、空调、计算机、电动汽车等)的生产和广泛使用,随着对电力需求的持续增长,电力生产过程中产生的二氧化碳等温室气体对环境造成破坏,寻求绿色电力解决方案成为有利于“美丽中国”建设的必然选择。当前,世界已全面进入数字经济时代,算力成为数字经济的基础,借助模型和算法,工业互联网、智慧城市、人工智能创作、数字人等多元产业应用蓬勃发展,但随着大模型训练对算力的消耗逐渐提高,突出的能源消耗驱使算力亟需注入“绿色基因”,从而实现高效节能和环境友好。从定义上看,只需保证从可再生能源中产生电能就能实现绿色电力,但算力要升级为绿色算力则更为复杂,既要提高全产业链的可再生能源发电量占比,减少化石能源电力使用,还要对算力设施和算力设备进行功耗控制和能效升级,同时在软件层面充分调动算力平台服务能力实现算力供需的高效对接和无感应用。

2.类比绿色计算

绿色计算和绿色算力无论是从词组构成上还是研究内容上都十分相似,辨析二者的定义和包含范围有利于实现各自的绿色目标。郭兵等认为绿色计算是一种以环境为中心的计算模式,通过消除计算机系统的环境不友好等方面,使得计算机系统、人、社会与自然环境更加和谐,实现节能、环保的目标。过敏意认为绿色计算是以保证计算系统的高效、可靠及提供普适化服务为前提,以计算系统的低耗为目标,通过构建能耗感知的计算系统、网络互联环境和计算服务体系,为信息服务方式提供低耗支撑环境。此外,有研究认为绿色计算的目的是优化计算资源的设计、建设、使用及回收过程,消除计算机系统对环境的不利影响,其中绿色可理解为能源和资源的节约、能源和资源的高效利用与循环利用以及对人和环境的友好,即低碳与无害。

总体而言,二者最主要的区别在于研究对象和研究范围不同。绿色计算主要是将计算机系统作为研究对象,以各类系统软硬件技术和管理手段作为研究内容,最终实现低碳、节能、环保等目标。绿色算力研究对象为:包括中央处理器(Central Processing Unit,CPU)、图形处理器(Graphics Processing Unit,GPU)芯片、全闪存阵列、固态硬盘(Solid State Disk,SSD)存储部件,以及交换机、路由器网络资源在内的手机、个人计算机、服务器等算力载体;部署了大量服务器的数据中心、智算中心和超算中心的算力集群;利用网络传输技术进行算力调度或算力交易的算力平台;高精尖科研、工业互联网、智慧城市、数字人等算力应用。绿色算力研究内容涵盖信息计算力、数据存储力、网络运载力在内的综合算力。因此,算力涵盖的范围更加广泛,针对计算机系统的绿色计算研究可以认为是针对算力领域进行绿色研究的一部分。绿色计算概念中针对绿色的定义和解释可在绿色算力中进行吸纳。

辨析绿色的内涵

无论是绿色电力、绿色计算还是绿色算力,想要厘清各领域的实际定义和内涵,首先需要明晰什么是绿色。从人类视觉上看,绿色本身是一个颜色种类,人们提起绿色很容易联想到草木丰盛、生机勃勃的大自然。从发展方式上看,《中华人民共和国国民经济和社会发展第十三个五年规划纲要》提出绿色是永续发展的必要条件和人民对美好生活追求的重要体现,指出必须坚持节约资源和保护环境的基本国策,坚持可持续发展,坚定走生产发展、生活富裕、生态良好的文明发展道路,加快建设资源节约型、环境友好型社会,形成人与自然和谐发展现代化建设新格局。《中华人民共和国国民经济和社会发展第十四个五年规划和2035年远景目标纲要》再次强调要推动绿色发展,促进人与自然和谐共生,指出要坚持尊重自然、顺应自然、保护自然,坚持节约优先、保护优先、自然恢复为主,实施可持续发展战略,完善生态文明领域统筹协调机制,构建生态文明体系,推动经济社会发展全面绿色转型,建设“美丽中国”。由此可总结,绿色包含两大根本,“人”与“自然”,人(或者社会)在向前发展的过程中,要把自然的发展考虑在内,最终实现二者和谐共生。实现发展的绿色,具体措施至少有以下几项。

1)资源总量管理:全面提高水、电、土地、矿产等资源利用效率、强化节能管理、实施能量系统优化节能改造技术。

2)科学配置:完善土地复合利用、发挥区位特点、提高调度能力。

3)全面节约:直接减少资源消耗、寻找替代资源。

4)循环利用:资源梯级利用、废物回收综合循环利用、污染物集中处理、发展循环农业。

综上,进一步将绿色算力定义为实现算力基础设施发展与生态环境保护有机统一的综合能力,是衡量算力基础设施发展绿色化程度的一个综合指标,其把自然资源、环境资源作为发展所需考虑的关键,旨在推动算力设备、算力集群、算力平台和算力应用的绿色发展。绿色算力的目的是打通算力供需通路,完成算力产业用能转型、生产高效、应用和需求场景相匹配,最终实现推进数字经济高质量发展与生态环境高水平保护的双重目标。绿色算力具备全局性、先导性和长期性等特征,可以通过采用节能高效的算力设施、集约智能的算力设备、先进算法和算力平台软件技术,以及科学合理的算力应用等方式来实现。例如,绿色算力可以采用高效的电能传输设施、节能可循环的液冷设备、计算高效的服务器、先进的存储阵列、无损的网络设备,以减少能源消耗;同时,通过软件技术、软硬件结合手段,激发拓展平台能力,发挥全局资源调度优化、智能产品开发技术支撑和绿色监测评估优化等功能,实现提高算力利用效率。

三、绿色算力关键技术

算力设施关键绿色技术

本文所说的算力设施可理解为提供风、火、水、电等保证算力正常生产运行的必要设施,为算力载体提供基础的动力来源、能源配送和可靠性保障。目前,针对绿色算力,算力设施的绿色技术亟需发展,供配电技术以及制冷/散热技术就是其中关键性技术。

算力发展与电力密不可分,电力是支撑算力的基础。数据中心作为算力的载体,主要依靠电力驱动运行,作为传统意义上的耗能大户,数据中心的电量消耗和随之产生的碳排放不容忽视。直接在电力消费环节降低能耗实现绿色低碳,也会大大推进绿色算力的发展。从根本上来说,绿色电力将成为我国能源生产和消费主体[14-15],数据中心采用绿色电力供电也是实现绿色算力的重要手段,主要包括自建或采购绿色电力两种方式。针对数据中心自建绿色电力,可采取:自建分布式光伏,即在车棚、屋顶或园区空地安装光伏组件;建设新能源微电网能源综合利用系统。运营商、第三方互联网数据中心(Internet Data Center,IDC)和互联网企业均有数据中心项目拟建或已铺设分布式光伏,但光伏用电量占数据中心总用电量比例仅为个位数。少部分综合实力强劲的企业开始探索以数据中心为负荷的源网荷储一体化项目,计划实现新能源发电完全覆盖数据中心用电需求。

目前,供配电系统占数据中心总能耗约10%,供电效率的提高也是数据中心供配电技术的研究热点。数据中心为了保证不间断运行势必会消耗大量的电力,在如此大基数的电力传输下,电力传输期间的电能损耗也会很大,电力传输效率的提高显得尤其重要。缩短电力传输路径、减少转换层级、提升电力转换效率等都是实现高效供电的措施。“高压直流(HVDC)+市电直供”相结合的模式目前被广泛应用于IDC,其供电效率可普遍提高94%~95%,百度云计算(阳泉)数据中心“市电直供+HVDC离线”架构,供电效率达到99.5%。HVDC技术在开/关电源侧减少了一次直流/交流变换,在IT设备侧也减少了一次,从而提高了电源使用效率,市电直供在一定程度上有利于能耗的降低,因此“HVDC+市电直供”模式可以实现低成本、高效能、高可靠性的数据中心供电。

对于数据中心而言,制冷系统是除IT系统能耗外最大的耗能单元,占总能耗的32%左右,制冷/散热技术是影响数据中心绿色低碳发展的重要因素。根据机柜的热密度等级,依次可选择的冷却方式有房间空调、机架内部冷却、液冷冷却等。当前,针对机房冷却和服务器冷却的主流绿色技术有自然冷却技术和液冷技术。自然冷却技术相比机械制冷技术能耗低、碳排放少,其根据冷却介质可分为空气自然冷却和水自然冷却,根据接触方式又分为直接冷却和间接冷却。其中,直接新风自然冷却利用机房室外的自然环境作为制冷源,通过装置将符合空气质量要求的冷风引进机房进行制冷,这种冷却方式路径最短,散热效率最高,但是空气质量较差,对于温度、湿度不合适的数据中心不适用。自然冷源水冷却技术是采用河水、海水等自然冷源水进行冷却的技术,其技术应用在我国已经取得了较大进展。例如,海南海底数据中心示范项目以海洋作为自然冷源,将服务器安放在海底的压力容器中,通过海水的流动进行自然冷却。液冷技术直接对服务器进行冷却,突破了物理机房的限制,正成为业内主研的重点技术。液冷制冷能效更高,空间占用也更少,主要制冷方式为间接冷却和直接冷却。间接冷却以冷板式液冷技术为主,直接冷却以浸没式液冷技术为主。冷板式液冷是利用装有液体的冷板接触或者利用导热部件将热量传导至冷板来进行散热,浸没式液冷是将发热的原件浸没在冷却液中直接散热。我国一些主流IT设备厂商均有液冷产品研发,覆盖风液冷混合、冷板液冷、浸没式液冷等主流液冷技术。

算力设备关键绿色技术

算力设备是生产算力的基础和源头,主要是对数据进行处理和输出。算力设备是以服务器、芯片作为主要核心部件,另外还综合了网络、存储等设备。算力设备的数量大、种类多,其绿色技术发展对于整个绿色算力来说具有重要意义。服务器高效计算以及先进存储系统是发展绿色算力设备技术的主要因素。

服务器是算力供给的核心设备,具有处理数据和输出结果的功能,也是数据中心IT设备中能耗最高的设备。服务器的高效节能对于绿色算力发展极其重要。精简指令集是CPU指令集按照逻辑分类的一种,ARM架构是精简指令集的主要代表,拥有完整的生态系统,涵盖了人工智能、云计算、高性能计算等领域。此外,精简指令集还包括MIPS架构、RISC-V架构等,RISC-V架构是一种新型架构,建立在已有的体系结构所暴露的问题之上。基于精简指令集架构的处理器具有低功耗、高效能、高可靠性的特点,这些特点使其成为了推动算力设备绿色发展的主力。在产品形态方面,高密度服务器的建设也是提高计算效率的有效措施。高密度服务器可以使一台机箱内的多台服务器共享电源和风扇,一方面提高了电源和散热系统的使用效率,另一方面也提高了单位面积的算力。刀片服务器是高密度服务器的一种,可以有效降低耗电量,并且具有高可靠性。除了提高能效之外,降低能耗也是服务器绿色发展的重点,动态调频调压、智能能耗管理、启动低功耗以及功耗封顶等技术都是降低能耗的先进技术。动态调频调压技术保证在服务器低负载时降低处理器的频率和电压,从而降低处理器功耗;智能能耗管理技术可以实时监测CPU负载,通过调节CPU频率来减少能源浪费;启动低功耗技术可以降低上电时功耗过大而带来的能源消耗;功耗封顶技术则可以通过限制处理器的性能,保证总功耗控制在设定的上限以下,防止功耗超标。

数据中心算力水平不仅取决于服务器,存储和网络设备也很重要,数据存储是数据利用的基础,也是数据处理、数据挖掘、数据价值等实现的前提。因此,存储绿色技术发展也是算力设备绿色发展的重要部分。随着全球算力的发展,到2025年,全球数据年产量将达到175 ZB,为了存储如此海量数据,存储耗电量增长迅速,对于低能耗的存储需求激增。数据分级、冷/热数据分治以及优化存储设计都是降低存储成本和功耗的有效手段。数据分级就是按照数据的访问频率将数据分为冷、温、热数据;冷/热数据分治就是将热数据存储在具有读写速度快、功效低、发热少的存储介质上,将冷数据存储在不需要实时访问的存储介质上。数据分级和冷/热数据分治可以更好地降低存储能耗。存储设计也是影响能耗的关键因素,全闪存、高密度硬件、风液冷技术等都可以大幅降低存储能耗。闪存介质相比传统机械硬盘介质能减少70%能耗;高密度存储介质可以大大提高单位存储效率,结合存算分离架构可以节约能耗10%~30%;风液冷技术可以针对不同部件采用不同冷却技术,既能够降低温度又能够减少冷却负荷,从而降低能耗。除此之外,数据融合技术、数据算法等也是目前业内研究的热点。

算力平台关键绿色技术

算力平台是给用户提供通用算力、智能算力以及高性能算力的算力服务平台,它实现了算力资源与计算要求的有效对接、算力与用户的有效适配以及算力在节点间的灵活调度和智能管理(见图1)。算力平台可以整合算力资源,根据需求来进行算力分配,避免了资源浪费,这对于发展绿色算力具有重大意义。算力资源全局调度以及智能产品开发技术是提高算力利用效率、实现平台层面绿色低碳的重要举措。

算力调度是实现算力供需高效对接的重要技术手段,算力调度可以根据不同的任务和需求进行算力资源的合理分配,实现弹性泛在、高效敏捷的算力供给。虚拟化和云原生技术可以提高服务器利用率,减少能源消耗和碳排放。算力虚拟化是在服务器上通过将物理资源抽象成逻辑资源,从而使多个操作系统同时在单台物理服务器上运行的技术,该技术可以整合服务器资源,将服务器CPU平均占用率提高10%~30%,从而减少机房制冷系统负荷降低能耗,有效节能20%~50%。算力池化技术是一种云原生技术,它会将多个算力资源汇聚到一个池中来进行灵活调度,从而提高资源利用率;算力池化技术基于虚拟化发展而来,它可以将物理资源进行动态分配和管理,从而提高计算效率和灵活性;算力池化技术拥有弹性伸缩的特点,算力平台可以根据用户的实时需求来自动调整资源池的规模,这样可以大大提高资源利用率并降低用户成本。无论是企业自用算力平台还是用户范围更广的全国性或地区性算力平台,先进的资源调度技术都可以更好地管理和使用算力资源,提高效率,降低资源浪费。

计算架构可以屏蔽异构硬件差异,提供统一异构硬件开发工具,减少用户跨架构编程成本,并提供便捷化业务开发和部署方式,从而实现算力的优化配置和高效利用。平台工程和无服务架构是简化产品开发,提高算力资源利用效率的两种架构模式。平台工程是一套用来构建和运营、支持软件交付和生命周期管理的自助式内部开发者平台架构,开发人员的自助服务可以达到降本增效的目的。平台工程主要应用于系统软件协同设计、透明研发、部署解耦,系统软件以模块化方式交付从而提升产品研发效率,加快业务迭代速度。无服务架构是一种新型的计算架构,它基于事件驱动,可以自动扩展和缩减计算资源,无需用户管理服务器。无服务架构抽象了底层基础架构的细节,消除了对传统的始终在线的服务器的大部分需求,显著降低了运维成本。人工智能应用框架可以作为人工智能应用开发中平台架构的一部分。PyTorch和TensorFlow是两个热度很大的框架,TensorFlow历史较为久远,并且功能强大,在工业领域应用广泛;PyTorch时间较短,可以让开发者无缝地将人工智能模型从研究转到生产,无需处理迁移,从而获得大量研究人员青睐。两者都具备优化的性能、易于理解的框架与编码、良好的社区支持、并行化的进程以及自动计算梯度等特征。当前,业界正在探索无服务架构和人工智能的协同效应,以期进一步提高开发效率与算力利用效率,实现技术创新和绿色低碳发展。降低代码运行能耗也是实现绿色算力的措施之一,在应用产品设计和优化上,考虑发展绿色算法,优化策略和参数设置,从而降低能耗。应用程序的架构和设计都会影响服务器的利用率,利用并行处理和分布式计算能力可以有效利用算力资源,高效的软件设计、良好的代码都可以提高整体的运行效率。

四、绿色算力展望与建议

绿色设施、绿色设备、绿色平台和绿色应用共同筑起绿色算力未来

能源是算力产业发展必不可少的驱动力,算力流转中的每一个过程都与能源利用密切相关,无论是服务器的运转、制冷/散热设备的驱动,还是大模型平台资源调度都离不开持续稳定的能源支持。因此,推广绿色供能和绿色用能设施在促进绿色算力发展中扮演着举足轻重的角色。未来,绿色算力底层基础将被全面夯实,算力产业加快提升新能源电力供给比例,针对维持电力稳定不间断问题加强微电网系统研究与构建,积极开展储能材料的探索和技术研发;针对制冷低功耗需求着力推动液冷相关技术创新、探索余热回收等节能方向,算力设施的关键核心技术全面创新。

算力设备是决定算力供给能力的关键,算力生产的多少主要取决于计算芯片的运算能力,另外还需要存储和网络等相关设备的协同配合,算力才能够更好地发挥生产力作用。算力设备绿色低碳运行是实现算力产业链整体节能高效的重要一步。要继续巩固和发展绿色算力设备,从设备选型、系统部署、配套设施的全流程进行绿色技术研发和创新应用,支持深度应用浸没式、冷板式液冷服务器,推动研发高性能的人工智能芯片,使用先进闪存介质降低能源消耗,探索存算分离架构结合高密存储带来能耗节约。

算力平台是以算力载体或算力集群为底层基础,基于互联网技术发展而构建出的软件环境,使用算力平台,向上可以统筹管理算力设备输入的硬件资源,向下赋能行业应用满足工业、金融等各个行业的算力消费需求,是帮助产业实现算力灵活调配和高效应用的重要支持。未来,算力产业将持续聚焦软件技术使其充分激发硬件性能潜力,包括根据服务框架、计算框架、存储引擎属性进行硬件性能动态调节优化,以及运用人工智能和大数据能力进行历史数据分析和未来趋势预测实现工作负载绿色,从而进一步深化平台算法能力优化策略和参数设置,降低代码运行能耗。

算力应用即算力赋能,是指将算力作为驱动生产方式变革和数字化转型的关键要素,应用于高新技术、产业数字化转型以及移动消费智能终端,赋能各行各业实现能源效率提升、数字化转型及供应链优化。随着算力在各领域应用的走深向实,算力应用正逐渐由互联网行业向交通、工业、金融、政务、医疗、教育等传统行业加速渗透,应用场景也从通用场景拓展到行业特定场景,如智能座舱、智慧城市大脑、人工智能数字人等。但不同应用场景对算力的需求不同,如何处理好多样化需求与低能耗低排放的关系仍是算力产业亟待解决的问题。未来,在赋能应用层面,要广泛建立算力绿色低碳化标识,形成绿色算力消费的碳减排方法论,引导消费者在日常生活中选择消费绿色算力,促使产业上游供给绿色算力以满足消费需求,倒逼生产方式实现算力产业整体绿色低碳发展。

促进绿色算力发展相关建议

算力基础设施绿色化、低碳化、智能化发展是我国绿色算力发展的主旋律,“绿色数据中心”“绿色智能的数据与算力设施”“新型智能算力生态体系”成为了各相关政策文件关注的焦点。当前,以绿色算力为施策方向,针对软件平台高效集约、算法应用绿色低碳进行统筹规划的政策文件较少,缺乏从用能开始,经过生产调度,再到落地应用的算力全流程一体化规划设计。未来,在政策规划上,要构建高效协同的绿色算力技术产业生态,积极引导绿色算力创新体系建设,培育全栈绿色化算力创新联合体,搭建具备节能环保绿色低碳属性的算力基础设施。支持算力企业提升自主创新水平,加大研发投入,提升核心技术竞争力,不断拓展绿色算力服务边界。在数据中心领域,围绕碳利用效率、碳中和评估、IT设备能效已经存在了相应标准和规范,电能利用效率、碳利用效率、水资源利用效率、基础设施利用效率以及算力碳效等关键能效指标被陆续提出,但绿色算力标准体系还存在空白,对于术语、定义等基础性标准尚不完善,计算评测、分类分级方法亟需制定。未来,要建立和完善绿色算力标准体系,推进绿色算力标准在算力基础设施等相关重点企业和重点领域中的应用,对算力全生命周期绿色化提供指导和建议。

五、结束语

算力是数字经济时代集信息计算力、网络运载力、数据存储力于一体的关键生产力,已成为推动各领域数字化、智能化转型的重要基石,并为“数字中国”建设提供了有力支撑。自我国正式提出碳达峰碳中和目标以来,绿色低碳、节能环保成为各产业布局的底层逻辑,经济社会对生产、应用和消费绿色算力提出明确诉求。技术创新是算力发展的根本。近年来,算力产业链上下游各方共同协作与融合发展,绿色算力在新技术、新产品、新解决方案落地应用上也已取得了积极进展。未来,相信绿色算力技术将不断成熟,绿色算力相关标准、评价指标将不断完善,算力行业各方会逐步将绿色意识和算力发展融合统一,建立科学有效的绿色战略和路线图,算力产业整体实现“数字化”+“绿色化”双轮驱动高质量发展。