返回 相似
资源描述:
数据中心算力-电力灵活性协同研究 智能管控 计算负载, 灵 活 调节电 力负荷 白皮书 腾讯调研云执行概 要 适应新能源发电比例不断提高, 以及用户侧电力需求响应逐步常态化的趋势, 腾讯携手 英特尔、 中国电信, 针对通过数据中心算力-电力协同进行需求响应进行了初步可行性研 究。 本研究提出通过判断计算任务在服务器上的算力-电力特征, 在不影响业务运行的情况 下, 降低电力部件的实时冗余性、 调整业务负载的并行规模和时间分布。 研究对业务-算力- 电力三者协同提供电力灵活性的多种策略进行了实际测试, 在服务器集群运行不同 IT 任务 类 型 时 ,通 过 切 换 空载服 务 器 功 耗 状 态、 利 用 服 务 器 子 部件 资 源 消 耗 不均 衡 性 、 平 移和 伸 缩实时 性 不敏 感 任务, 改变负荷大小和时间分布, 可达到节能降耗、 对电网负荷削峰填谷等 目的, 可适用于各种规模、 形式的数据中心、 机房、 集群和服务器。 本研究表明, 三种策略均 可根据外部指令实现秒级对服务器功率的快速控制, 为数据中心参与需求侧分钟级、 秒级 响应, 或参与电力现货市场和电力辅助服务市场, 提供了可行性依据和技术支持, 显示数据 中心的电力灵活性响应具备巨大的潜力以及广阔的应用前景。 未来, 推动其由研究走向数 据中心算力-电力需求响应的成熟应用, 既需要对更多部件、 更复杂的部署情况进行深入实 验, 又需要形成自动化系统, 联动业务-算力-电力三者的对应信息, 同时更需要产业伙伴广 泛协同, 采用一套标准的测试方法标定业务负载在机型上的电力特性数据, 开源共享, 从而 充分挖掘和发挥出数据中心算力侧的电力灵活性, 助力构建新型电力系统。 背景 环境挑战日益严峻, 其影响正受到全球高度关注。 2022 年 4 月 4 日 ,联 合 国 政 府 间 气 候 变化专门委员会 IPCC 正式发布了第六次评估报告 AR6,并 在 第 三 工 作 组 报 告 气 候 变 化 2022 减缓气候变化 中警示 1 ,在 2100 年前将全球升温控制在 1.5℃ 以内 且不导致“过 冲” 的机会窗口短暂且正在迅速关闭, 全球减缓气候变化和适应的行动刻不容缓, 任何延迟 都将关上机会之窗, 让人类的未来变得不再具有可持续性。 同期, 在中国气象局 2022 年 8 月 3 日发 布 的中国 气候 变 化 蓝 皮书 2022 则显 示 2 , 2021 年中国地表平均气温较常年值偏高 0.97℃ ,达 1901 年以来的最高值, 升温速率高于同期全球平均水平, 是全球气候变化的敏感区。 为有效应对严峻的环境挑战与经济社会高质量发展的内在压力, 落实联合国 2030 年可持 续发展议程, 中国积极实施生态文明国家战略, 发布“碳达峰”和“碳中和”目标, 加快降低碳 排放步伐, 引导绿色技术创新。 同时, 持续推进产业结构和能源结构调整, 努力兼顾经济发 展 和 绿 色 转 型 ,促 进 可 持 续 发 展 。 在中国, 电力行业碳排放量占全国碳排放总量的 40 以上, 同时用电增长作为刚性需求, 是支撑经济转型升级和居民生活水平提高的重要保障, 这使得电力成为未来 10 年能源增 长的主体 3 , 且在社会整体用能电气化的背景下新增需求巨大。 电力行业的碳排放峰值及达 峰速度直接决定着 2030 年前全国碳排放达峰目标能否实现。 也正是因此, 电力行业的减 排成为中国整体实现“双碳”目标的重要抓手, 也让需求侧 用户侧 的电力响应逐渐走向前 台, 并在数智技术的助力下, 对节能降碳发挥日益重要的作用。 目录 执行概 要 1 背景 1 数 智技 术 助力需求侧 响 应 走向节能 减 碳 的前台 2 探索 和 推 进 数据 中 心 电 力 灵 活 性 实践 2 系统化 构建 数 据 中 心算 力-电 力灵 活 性 方案 4 灵 活 性 策略设计 .4 利用 空载服 务 器 在不同功 耗 状 态 之间切 换 4 利用 计 算 任 务 在 服 务 器 硬 件 资 源 消 耗 上的 不均 衡 性 4 利 用 平 移 和伸缩 实时 性 不敏 感的 计 算 任务 5 利 用 网络跨 数 据 中 心 转 移 任务 5 灵 活 性 策 略结果 .5 利用 空载服 务 器 在不同功 耗 状 态 之间切 换 的 策 略 测 试 5 利 用 计 算 任 务 在服 务 器 子 部 件消 耗 不 均 衡 性 的 策 略 测试 6 硬 盘 密 集 型任 务 . 6 内存 密 集 型 任 务 . 7 CPU 密 集 型任 务 . 8 利 用 平 移 和伸缩 实时 性 不敏 感的 计 算 任务策略 测 试 . 8 子 任 务 独 立 型 并 行 计算 9 子任务耦合 型 并行 计 算 9 对下一步研究的启示 . 10 未来展望 11 鸣谢 . 11 附录 . 12 1 腾讯调研云数 智技 术 助力需求侧 响 应 走向节 能 减 碳 的前台 大力发展风电、 太阳能等可再生能源, 支撑火电从基荷能源往灵活 性能源的转变, 驱动行业转型, 是支持全社会加速脱碳的一个关键 环节。 但是, 这类可再生能源供应存在明显的间歇性、 随机性以及不 可控特性, 这给电网的长期发电容量和短期实时平衡都带来了巨大 挑战。 因此, 调动用户侧灵活地深度参与系统平衡, 对于以新能源 为主体的新型电力系统建设具有重要支撑作用。 2021 年底, 中国国家能源局修订发布电力并网运行管理规定国 能 发 监 管 规〔2021 〕 60 号 4 、 电 力 辅 助 服 务 管 理 办 法 国能发监 管 规〔2021 〕 61 号 5 , 将电力系统参与主体由原来的传统发电厂单侧 扩展为“源荷”两侧, 特别是加入了“风光、 新型储能、 负荷侧可调节 负荷”, 同时也提出“谁提供, 谁获利; 谁受益、 谁承担”原则, 电力辅 助服务费用由包括发电企业、 电力用户在内的所有并网主体共同分 摊。 这不仅让用户侧的电力精准预测成为用能企业的责任, 也激励 着用能企业从单纯用电方转向电力灵活性的提供方, 积极挖掘自身 用电灵活调节能力。 然而, 用户侧负载与人们生活、 企业生产等直接相关且高度分散的 特性, 决定了对其控制需要从生产到电力的整体协同。 同时, 需求 响应可调节资源类型复杂, 数据统计分析工作量大, 传统手段难以 应对。 大数据、 人工智能、 物联网等技术的应用与融合, 给精细化进 行用户负荷管理与响应带来了新契机, 使得对需求侧负载进行有的 放矢地实时调节成为可能, 其在数据中心等领域的应用探索和推广 也将为绿色可持续发展提供创新动力。 探索 和推 进数据 中 心 电力 灵活性 实践 5G、 人工智能等新技术的快速发展和应用, 为各行各业高质量发展 提供了强劲新动能, 同时也让作为新型基础设施的数据中心规模不 断扩大, 其能耗和社会用电占比都在持续增长, 预计 2025 年中国数 据中心耗电将占社会总用电量 4 6 。因 此 ,加 速 数 据 中 心 绿 色 转 型 也成为节能减排、 促进可持续发展的重要途径。 作为一家领先的互联网科技公司, 腾讯秉持“用户为本, 科技向善”的 使命愿景, 制定了腾讯自身的碳中和目标设定和减排路线规划 7 ,承 诺不晚于 2030 年 ,实 现 自 身 运 营 及 供 应 链 的 全 面 碳 中 和 ;同 时 ,不 晚于 2030 年 ,实 现 100 的绿色电力, 并希望主动承担起助力社 会低碳转型、 扶持新兴低碳技术的使命和义务。 为实现这一目标, 腾讯遵循“减排和绿色电力优先、 抵消为辅”的原则, 大力提升数据 中心的能效水平, 积极参与绿电转型及相关市场建设, 并不断探索 碳汇领域的技术革新。 怀着这一宏阔愿景, 腾讯积极推进数据中心 节能减排, 例如腾讯在中国南区的第四代 T-block 技术通过采用高 效 率 的 制 冷 和 供 配 电 架 构 ,拥 有 30 万台服务器的园区一年能节省 约 2.5 亿度电, 且具有低噪音、 高能效等特点与成本优势 8 。 而其中, 经与英特尔合作, 基于英特尔® 至强® 可扩展平台的首款自研服务 器 ,分 别 将 计 算 密 度 、散 热 能 力 提 升 50 和 45, 为数据中心大幅 降低电量提供了关键助力 9 。 同时, 数据中心管理、 功耗钳制、 待机功 耗优化等相关技术也被收录于英特尔绿色数据中心技术框架中。 然而目前数据中心的建设规范和导向, 都重点关注评价数据中心能源 效率的指标 PUE 等电力使用效率指标, 也就是数据中心总能耗与 服务器等 IT 设备能耗之比, 尚未面向数据中心提出电力灵活性指标。 这源于过去服务器电力供应与对应的计算任务信息, 处于不同的管理 范围和系统, 使得数据中心一直基于铭牌功率来配置供电, 且认为负 荷刚性不可调, 进而一直处于“电力跟随算力”的状态。 纵观目前针对 数据中心的能源管理研究, 也主要把算力需求带来的电力负荷作为刚 性负荷, 把研究的焦点集中在供能系统等非服务器设备, 重点关注配 置储能、 优化供冷系统调节等。 其实, 细观数据中心用电结构就会发 现 ,服 务 器 才 是 耗 电 “ 大 户 ” ,以 PUE 值为 1.3 的 数 据 中 心 为 例 ,服 务 器 耗电占比 77。 因此, 寻找调节服务器的算力和电力负荷的方式, 将 能发挥出数据中心的巨大电力灵活性潜力。 PUE 数据中心总能 耗 / IT 设备能 耗 PUE , Power Usage Effectiveness 的 简 写 ,是 评 价 数 据 中 心 能 源 效 率的 指 标、 数 据中 心 消 耗 的所 有 能 源 与 IT 负载 消 耗 的 能 源 的 比 值 。 其中 数 据 中 心 总 能 耗包括 IT 设 备 能 耗 和制冷 、 配 电 等 系 统 的能 耗 。 PUE 值 大于 1,越 接 近 1 表明非 IT 设 备 耗 能 越 少 ,即 数 据 中心 能 效 水平 越 好 。 同时, 数据中心作为数字化技术的核心节点, 数字化与自动化基础 较高, 与电力相关的传感器数据采集、 设备控制等也较为齐全。 算力 消耗的电力是由算力程序驱动电子元件的电力消耗, 算力天然的可 观、 可测、 可即时调节特性, 使得实际上可以通过算力的调整达到服 2 白皮书 | 数 据 中心 算力-电 力灵 活 性 协 同 研 究 腾讯调研云务器在分钟级、 秒级响应速度下的高精度电力负荷控制, 而无需额 外增加任何硬件。 这使得数据中心在电力灵活性调节上具备天然的 技术可行性。 从政策导向看, 为了激励各级、 各类用户积极实施需求侧响应, 电网 根据发出响应邀约到需求侧实际执行响应的时间尺度, 已将响应分 为日前响应、 小时响应、 分钟响应、 秒级响应等模式, 并针对不同类 型的响应模式, 给予容量 kW 和能量 kWh 补偿。 比如, 在试点省 份浙江, 对电力需求响应电能量补偿费用高达 4 元 / kWh 10 ,远 高 于 数据中心等平均不到 1 元 / kWh 的工商业电价 11 。因 此 ,数 据 中 心 以 及数据中心的用户, 通过进行需求侧响应, 在为电网提供电力灵活 性的同时, 也可为自身带来可观的额外收入, 将成为数据中心发挥 其电力灵活性的强大动力。 基于此, 在新能源发电渗透率不断提高, 用户侧需求响应逐步常态 化, 电力调频、 调峰、 备用等辅助服务逐步开放的今天, 也促使我们 思考如何在数据中心提升电力灵活性上迈开步伐, 促进数据中心作 为丰富的用户侧电力灵活性资源, 助力新型电力系统建设。 针对这一 主题, 腾讯、 英特尔、 中国电信携手, 关注数据中心服务器负载的电 力灵活性, 提出通过判断计算任务在服务器上的算力-电 力 特 征 ,在 不影响业务运行的情况下, 降低用电部件的实时冗余性、 调整业务负 载的时间分布和并行规模, 从而达到降低、 平移、 伸缩数据中心服务 器的用电负荷, 形成“算力跟随电力”的特性, 展现出如下优势 数 据中 心数字 化 程 度高 , 可秒级 响应并精 准 跟随 指 定负 荷 无 额 外 硬 件 购置 成 本 适 合任意大 小的数 据 中 心 、 集 群 和 服 务 器 针对数据中心服务器负载的需求响应, 国外已有一些相关实践。 自 2017 年 以 来 ,谷 歌 已 将 每 年 的 用 电 量 100 匹配到可再生能源的 采购中。 2020 年起, 谷歌通过在数据中心运营中配置碳智能计算平 台, 使数据中心能够灵活地将计算任务转移到一天中的不同时段, 来消纳更多的太阳能和风能等无碳能源。 在此基础上, 又基于电网对 碳密集型能源依赖程度的日前预测, 测定不同区域每小时无碳能源可 用性, 进而在全球不同区域的数据中心之间“转移计算”任务, 让太阳能 和风能等可再生能源使用“始终在线”, 实现电力资源的优化匹配 12 。 日本 NTT 公司在 2011 年, 与英特尔合作, 为应对震后电力供应紧张 及政府限制企业用电要求, 控制服务器功率上限与功耗。 通过将高 负载服务器的性能降低到 90,将 数 据 中 心 峰 值 用 电 量 降 低 了 18; 通过将低负载服务器的性能降低到 70,将 数 据 中 心 峰 值 用 电 量 降 低了 16; 而且通过控制服务器的总功耗, 可以在保证关键业务不暂 停的情况下, 在外部断电期间延长数据中心运行时间约 1.8 倍 13 。 从上述案例可以看出, 数据中心算力-电力的相互协同具有巨大潜力, 而要主动构建数据中心的算力电力灵活性能力, 核心控制点是在相 3 白皮书 | 数 据 中心 算力-电 力灵 活 性 协 同 研 究 数据中心负载 服务器负载 非服务器负载 算力优化 余热回收 资源协同 暖通 / 供电优化 空间响应 时间响应 需求响应 AI 优化 在不影响任务表现的情况下, 调节服务器功率 关注响应速度、 响应深度、 响应时长、 响应精度 蓝色为本研究关注重点 图 1 数据中心低碳研究的主要对象和领域 腾讯调研云 利用不同计算任务对服务器各 硬件子部件的负载不同, 而选 择性降低非瓶颈子部件的功耗 包括硬盘密集型、 内存密集型 等任务 应的时间尺度内, 对计算任务、 服务器颗粒度甚至其 CPU、硬 盘 、 内存等各子部件的颗粒度进行调节, 在考虑业务性能和电力功率 的联合优化目标下, 通过将电力消耗纳入算力分配的考量, 达到业 务-算力-电力的三方资源协同。 由此, 在不影响业务表现的前提下, 服务器算力的总弹性便成为数据中心可主动向电网提供的电力灵 活性。 系统化构建 数据中 心算 力-电 力灵 活 性 方案 通过系统化分析发现, 数据中心通过算力调节进行需求响应, 来提 供电力辅助服务的实现策略有四种, 分别是 利用 空载服 务器功 耗切 换 、 利 用 服 务 器 硬 件资 源 消 耗 不 均 衡 性 、 平 移 和伸 缩实 时 性不 敏 感 任务 以 及 跨 数 据 中 心转移任务。针 对 前 三 项 策 略 ,腾 讯 、英 特 尔 、中 国电信共同合作, 组建了横跨计算机硬件、 计算机软件、 数据中心运 营、 电力领域的专家和工程师, 对数据中心算力-电力灵活性方案进 行了探索。 灵 活 性策略设计 1. 利用空载服 务器 在不同功 耗 状 态 之间切 换 从时间分布上看, 数据中心中会有一部分服务器处于并未执行任何 工作而空载备用的状态。 因此, 通过业务规模的精细预测, 对服务器 执行不同方式的功率降低和休眠策略, 可实现不同级别的响应速度 和响应深度。 该策略可以长期运用, 作为数据中心节能的重要途径, 只是存在精细管理的成本与节能收益之间的平衡问题; 也可作为响 应策略, 以电力辅助服务的优势价格, 刺激数据中心精细预测和切 换空载服务器功耗状态。 图 3 利用服务器功耗状态切换的策略示意图 2. 利用计 算 任 务在服 务器 硬 件资 源 消耗 上的不均 衡 性 任何一个业务负载在服务器上的运行, 会存在要么服务器能力有冗 余 ,要 么 其 CPU、 网络、 内存、 硬盘等某子部件的某一性能使用密 集, 成为“短板”, 而导致其余部件的能力产生冗余, 即“长板”。 降低 冗余的子部件性能, 可以在不影响业务负载运行效率的情况下, 降 低电力负荷。 该策略需要研究一系列的特性数据, 包括业务负载对 于各子部件的压力特性数据、 总体业务性能与子部件性能的关联以 及子部件性能变化时的能耗特性数据, 同时在执行响应时, 还需要 实时监测业务负载对于各子部件的实时压力数据, 以便根据之前的 特性数据集, 及时做出电力负荷调整的位置和幅度策略。 4 白皮书 | 数 据 中心 算力-电 力灵 活 性 协 同 研 究 对实时性不敏感的并行计算任 务 进 行 断 点 续 算 和 扩 缩 容 ,快 速 改变电力负荷在时间上的分布 包括科学计算、 视频渲染等独 立 / 耦合型计算任务 服务器通过操作系统电源管 理 、外 部 PowerCap 和软关机 等 方 式 ,进 行 切 换 功 耗 状 态 功耗状态之间的切换时间影 响应用场景 通过将业务冷迁移或者热迁 移到不同地理位置的数据中 心 ,而 改 变 多 个 数 据 中 心 的 电力负荷在空间上的分布 服务器 功耗状态切换 动态调节 计 算 任务 硬件资 源性能调节 跨数据 中 心转移任务 可降低 4-100 功率 可秒级灵活调节负荷分布 可降低 2-26 功率 改变数据中心 电力负荷的空间分布 1 3 2 4 CPU 内存 带宽 硬盘 网络 GPU 各部件默认供电 业务实际所需供电 数据中心 数据中心 数据中心 图 2 探索数据中心服务器负荷灵活性的主要策略 蓝色为本研究关注重点 时间 算力 / 负荷 原始 平移 缩容 伸缩 腾讯调研云CPU 内存带宽 硬盘 网络 GPU 各部件默认供电 业务实际所需供电 图 4 压缩计算任务在服务器子部件上的冗余性能的策略示意图 3. 利 用 平 移 和伸缩实时性不敏 感的 计 算 任务 近年来, 随着智慧城市、 智能制造、 自动驾驶、 元宇宙等应用的不断 增 长 ,高 性 能 计 算 HPC 的 需 求 也 随 之 不 断 提 升 。影 视 渲 染 、效 果 图渲染等批量计算任务, 基因测序、 风机工况模拟等科学计算任务 以及 AI 训练等可并行的计算任务, 往往需要消耗大量的服务器资 源和运算较长时间, 已经成为 IT 行业节能减排研究的重要课题。 这类任务往往具有计算成本敏感、 实时性不敏感、 计算规模可变动 的 特 性 。中 国 信 通 院 发 布 的 数 据 中 心 白 皮 书 2022 年 显 示 14 , 2021 年 ,全 球 数 据 中 心 市 场 规 模 超 过 679 亿 美 元 ;而 TrendForce 报 告中指出 15 , 2021 年全球 HPC 市场规模达约 368 亿 美 元 ,较 2020 年增长 7.1% ,并 预 估 2022 年增长率提升至 7. 3%。 面对这一高速增长 的需求, 有专家警示道, 并行算法和并行软件设计, 必须考虑降低功 耗和提高性能以应对高能耗问题 16 。 对此, 一方面可以通过实时传递 价格信号, 激励用户选择电力价格较低的时间段进行整体运算; 另一 方面, 也可以通过断点续算、 可续渲染技术, 在计算任务执行的过程 中暂停乃至对并行规模进行改变, 来平移和升降电力负荷。 时间 算力 / 负荷 原始 平移 缩容 伸缩 图 5 通过计算任务平移伸缩来实现电力负荷调节的策略示意图 4. 利 用 网络跨 数 据 中 心转移任务 通过将业务冷迁移或者热迁移到不同地理位置的数据中心, 而改变 多个数据中心的电力负荷在空间上的分布, 该策略需要较庞大的业 务群及分布式计算存储业务架构予以支撑。 数据中心 数据中心 数据中心 图 6 通过跨数据中心转移计算任务来实现 电力负荷调节的策略示意图 前三个策略的实现需要业务-算力-电力三者的精准关联关系和协 同, 但能够适用于各种规模、 形式的数据中心、 机房、 集群和服务 器 ,也 是 本 研 究 的 重 点 。 本项目搭建了 一个服务器集群作为测试环境 具体软硬件配置和网 络配置见附录, 运用了如下两类工具作为状态监测和功率调整工 具 ,进 行 研 究 和 测 试 英 特尔® 数 据 中 心管 理 平台 Intel® Data Center Management, Intel® DCM 该平台能够通过带外读取系统整体电力和关键服 务器子部件的使用指标, 高频率读取 CPU 及内存实时用电功率, 同时其 Power Governor 模块中的 PowerCap 功能还能够提供精 准至单核的 CPU 和内存功率毫秒级限制。 Linux 系 统 工 具 mpstat, free, iostat, nicstat, 用于监测 CPU、内 存、 硬盘和网络的使用状态信息。 灵 活 性 策略结果 利 用 空 载 服 务 器 在 不 同 功耗状 态 之 间 切换的策略 测试 空载消耗 对于单台实验服务器, 在未运行任何计算任务的空载状态下, 消耗 电力功率 215W,其 中 CPU 消耗 53,内 存 消 耗 21。 5 白皮书 | 数 据 中心 算力-电 力灵 活 性 协 同 研 究 腾讯调研云215W 100 53 21 26 CPU 内存 其他 图 7 实验中单台服务器空载时的功耗及分布 测试流 程 对空载状 态服 务器进行 功耗状 态切换 在单机环境, 测试了三类切换空载服务器功耗状态的方式 将 Linux 功耗状态设置为 freeze,并 通 过 HMI 唤醒; 通过 Intel® DCM 的 PowerCap 将 CPU 功 率 上 限 调 节 至 最 低 ,并 通过解除设定来恢复功率; 输入系统命令 shutdown,进 行 软 关 机 ,再 通 过 电 源 按 键 启 动 。 Freeze PowerCap 空载 空载 关机 下发指令 恢复指令 图 8 测试策略流程图 测试结论 测试数据显示, 通过切换服务器空载状态, 三种模式皆可获得功率 降低。 其中, Freeze、 PowerCap 皆可秒级响应, 功率降比分别为 4、 27;关 机 带 来 的 功 率 降 低 最 大 ,达 100, 但切换开关机需要 2.5 分 钟 ,额 外 消 耗 电 量 0.0083kWh。 0 50 100 150 200 250 0 2 4 6 8 10 12 14 16 18 20 Freeze Powercap Shutdown 空载状态 服务器功率 W 时间 分钟 空载状态 省电指令下发 恢复指令下发 图 9 Freeze、 PowerCap 和关机三种方式下的功耗和响应特征曲线 策略 功率降 低 降 低比例 响应 速 度 Freeze 9W 4 1s Powercap 57W 27 1s 关机 215W 100 3min 表 1 测试结果表 利 用 计 算 任务 在服 务器子部件消耗不 均衡 性的策略测试 不同的程序、 甚至单个程序运行不同功能时, 在不同类型的服务器 上成为“短板”的子部件都可能不同。 为使得本项目的业务负载有一 定的指标意义, 本策略的测试中尝试选取一些尽可能对单一子部件 形成压力的真实或模拟负载进行测试, 从而体现其余子部件电力灵 活性的最大可能。 同时, 也选取一些性能指标, 来反映服务器功耗 变化是否对业务负载的性能造成影响。 对 单 一部件 施 加 压 力 的 负 载并不 代 表不 会 对其 他子部件 造 成 压 力 , 例 如 内 存的 读 写操 作 不可避 免 地 会 带来 CPU 的运 算 操 作。 因 此 本 项 目 中 尽 可 能选 取 对 单 一 部件 压 力 最 大 、 同 时关 联 的其 他子部件 的 压 力 尽 可 能小 的 模 拟 负 荷 , 以窥斑见 豹 。 实 际数据 中 心 中 运 行 的 程序 , 可 以近 似 看 做是这些 单 一 模 拟 负荷 的组合 , 从而近 似 预 测出其电力 灵 活 性 。 硬 盘密集 型任务 测试负载 Linux 系统上的 dd 工具, 能够用指定大小的块拷贝一个文件, 并在 拷贝的同时进行指定的转换。 Linux 系统设计的一个重要思想是“一 切 皆 为 文 件 ” ,硬 盘 设 备 对 Linux 系统来说属于块设备类型。 dd 命令 可以帮助工程师直接读取或写入磁盘块设备文件。 在本项目中, dd 命令用于模拟一个硬盘 I/O 密 集 型 的 任 务 ,对 硬 盘 I/O 造成压力。 CPU 网络 硬盘 GPU 内存带宽 图 10 测试负载对各子部件的压力特性图 白皮书 | 数 据 中心 算力-电 力灵 活 性 协 同 研 究 6 腾讯调研云白皮书 | 数 据 中心 算力-电 力灵 活 性 协 同 研 究 测 试 流 程 通 过 dd 工 具 持 续 向 硬 盘 写 入 和 删 除 文 件 ,并 逐 步通 过降 低 CPU 功率从而降 低服 务器功率。 采 用 单 服 务 器 ,使 用 PowerCap 对 CPU 进行不同功率水平的限制, 并进行以下操作 运行 dd 命令向硬盘写入 1 个 512MB 大小的文件, 重复三次, 得到在不同功率水平下, 在硬盘中写入三次同样的文件 所消耗的平均时间及平均写入速度。 硬盘复制 1024 x 5MB 文件并删除 记录任务所用时间 降低 CPU 功率 图 11 策略测试流程图 测试结论 测试数据显示, 在执行硬盘密集型任务时, 可将 CPU 功率由 215 W 压缩至 160W,降 比 达 26, 且对硬盘写入速度没有影响。 所用时间 秒 总功率 W 0 10 20 30 40 150 160 170 180 190 200 210 220 可压缩功率空间 图 12 硬盘密集型任务的性能-电力特性曲线 初 始功 率 功 率压 缩 值 功 率 压 缩比例 215W 55W 26 表 2 测试结果表 内存密 集 型任 务 测试负载 memtester 是 Linux 系统下的一款内存测试工具, 可以帮助开发人员 在用户空间下对内存进行压力测试。 开发人员可以通过 memtester 限定测试内存的大小与次数, 在指定的内存大小中进行随机值, 异或 等一系列测试。 在本测试过程中, 通过运行 memtester 模拟内存密 集型业务负载。 同时运行的 memtester 进程越多 , 内存带宽使用率就 越高。 CPU 网络 硬盘 GPU 内存带宽 图 13 测试负载对各子部件的压力特性图 测 试 流 程 通 过 memtester 工具 , 使 得 对 内存带宽利 用 率 维持在多个水 平的 压力 , 并逐步 降 低 CPU 功率。 基 于 单 服 务 器 ,执 行 Linux 系统上 memtester 工 具 ,使 得 对 内 存 带宽利用率维持在 74、 47 和 28 三个压力水平。 接着使用 PowerCap 对 CPU 进行逐步降低的功率限制, 监测内存带宽利用率 的变化。 监测内存带宽 利用率 降低 CPU 功率 Band 74 任务 Band 47 任务 Band 28 任务 图 14 策略测试流程图 测试结论 测试数据显示, 在执行内存密集型任务时, 可对 CPU 功率进行压 缩, 当内存带宽占用率分别约为 74、 47、 28 时 ,初 始 服 务 器 功 率各自为 313W、 278W 和 255W,可 压 缩 的 功 率 各 自 为 18、 8 和 2,可 以 推 论 ,对 于 内 存 I/O 密集型任务, 内存占用越高, 而 CPU 功 率可压缩空间越大。 内存带宽利 用率 功率可压缩空间 0 20 40 60 80 150 200 250 300 350 band 74 band 47 band 28 服务器功率 W 图 15 内存 I/O 密集型任务的性能-电力特性曲线 7 腾讯调研云白皮书 | 数 据 中心 算力-电 力灵 活 性 协 同 研 究 初 始功 率 功 率压 缩 值 功 率 压 缩比例 Band 28 255W 6W 2 Band 47 278W 23W 8 Band 74 313W 57W 18 表 3 测试结果表 CPU 密集型任务 测试负载 Intel Linpack 是国际流行的用于测试计算机系统浮点性能的基准程 序。 通过对高性能计算机采用高斯消元法求解一元 N 次稠密线性 代数方程组的测试, 评价计算机的浮点性能。 Linpack SMP 版本在 单节点上运行, 在本测试中用于模拟单节点上的 CPU 密集型任务, 任务的具体参数见附录。 CPU 网络 硬盘 GPU 内存带宽 图 16 测试负载对各子部件的压力特性图 测 试 流 程 运 行 Linpack SMP 任 务 作为 CPU 密集 型的任 务 ,并 逐 步 通 过 降 低 CPU 功率而降 低服 务器 功率 , 记 录 任 务运行时间 。 基 于 单 服 务 器 ,使 用 PowerCap 对 CPU 进行不同功率水平的限制, 进行以下操作 启动 Linpack SMP 任务, 记录计算完成时的计算时 长和 Gflops 指标。 单节点 LINPACK SMP 负载 记录任务所用时间 降低 CPU 功率 图 17 策略测试流程图 测试结论 测试数据显示, 降低服务器功率时不存在任务完成时间不变的“平 台区域”, 当服务器功率从 363W 降为 232W 时 ,计 算 耗 时 从 1,377 秒增至 2,303 秒, 表明通过控制 CPU 功 率 ,降 低 服 务 器 总 功 耗 将 相 应 降 低 任 务 执 行 速 度 。后 续 应 探 索 针 对 服 务 器 CPU 之外的子部件 的功率控制, 如对内存、 网络的功率控制, 挖掘针对 CPU 密集型任 务, 压缩其余子部件硬件性能电力冗余对的潜力。 100 0 140 0 180 0 220 0 260 0 200 250 300 350 400 所用时间 秒 功率 W 2600 400 350 300 250 功率 W 200 2200 1800 1400 1000 图 18 CPU 密集型任务的性能-电力特性曲线 CPU 功率调控 利 用 平 移 和伸缩实时性不敏 感的 计 算 任务策略 测试 如今许多并行计算类的任务具备了断点续算功能, 有些应用程序本身 就支持断点续算, 而有些可以通过 Message Passing Interface MPI 中支持断点续算的 checkpoint / restart 技 术 来 实 现 。断 点 续 算 可 保 证 任务随时可以被中断, 并在重启后继续运算, 而不是重新开始, 从而 在电力上支持将算力需求, 也就是电力需求进行平移。 在断点续算的基础上, 如果应用软件还具有并行计算节点数可变 的能力, 则可以实现算力需求的随时扩容和缩容, 达到电力需求的 伸缩。 并行计算通过将一个计算任务进行分解, 形成在不同节点上 并行计算的子任务。 对于子任务相互独立的并行任务, 并行效率能 够达到 100, 因此计算效率几乎不受并行节点的数量和网络的影 响。 而对于子任务耦合的并行任务, 子任务间需要通过网络进行通 讯和同步, 从而除了计算任务本身的时间消耗, 还会带来额外的通 讯计算和等待的过程。 本项目分别选取了子任务独立和子任务耦合 两类并行计算任务, 测试了其算力和电力的平移与伸缩性能。 计算任务 计算任务 图 19 子任务独立与子任务耦合的并行计算任务 8 腾讯调研云 测试结论 测试数据显示, 在 2 个节点上运行计算任务, 耗时 10 分 27 秒 ,总 功 耗 为 118Wh;在 2 节点运行一段时间后中断任务, 再将剩余的计算量缩 容至 1 个 节 点 续 算 ,耗 时 13 分 49 秒 ,总 功 耗 123Wh;在 2 个节点运行 计算任务, 运行一段时间后中断任务, 再将剩余的计算量扩容至 3 个 节点上续算, 总计算耗时 9 分 54 秒 ,总 功 耗 125Wh。数 据 表 明 ,对 于 可分配至计算节点独立计算的并行任务, 可通过缩容、 扩容、 平移调整 计算节奏, 且不会显著影响总耗电量和总时长。 此策略可根据电网响 应邀约时段和负荷调节要求, 灵活改变算力分布, 达到“削峰填谷”。 0 200 400 600 800 1000 1200 功率 W 时间 10’27’’ 13’49’’ 9’54’’ 118 Wh 123 Wh 125 Wh 3 节点 1 节点 2 节点 图 22 缩容、 平移、 扩容子任务独立型并行任务的负荷特征曲线 子任务耦合型并行计 算 测试负载 VASP Vienna Ab initio Simulation Package 是当下具备最广泛的 国际认可度之一的材料计算模拟程序, 在半导体芯片、 量子物理等 领域广泛使用。 VASP 作为一个优化计算程序, 支持并行计算和断 点续算 18 。因 此 在 此 通 过 对 一 个 VASP 任务在运行过程中的计算资 源进行调整, 达到伸缩该任务的电力负荷的目的。 本测试中, 使用 一个 VASP 任务作为典型的子任务耦合型并行计算任务, 任务详 细参数请见附录。 CPU 网络 硬盘 GPU 内存带宽 图 23 测试负载对各子部件的压力特性图 白皮书 | 数 据 中心 算力-电 力灵 活 性 协 同 研 究 子任务独立型并行计 算 测试负载 对于汽车研发企业, 白车身轻量化对提升整车的性能质量、 节省制 造成本具有重大意义, 却是一个多变量、 多目标、 跨学科和计算代 价昂贵的复杂决策优化问题。 本测试中的优化问题, 将前地板、 外 挡板等 20 个位置的料厚作为优化的设计变量, 求解白车身在满足 刚 度 性 能 前 提 下 ,结 构 轻 量 化 和 1阶 模 态 性 能 的 最 优 解 。该 优 化 问 题 通过 UniXDE 多学科设计优化软件 17 , 进行分布并行计算, 具体计算 任务参数如附录所示。 CPU 网络 硬盘 GPU 内存带宽 图 20 测试负载对各子部件的压力特性图 测 试 流 程 在 23 台 计算 节点 上 分 别 按 以下 3 种策略在 UniXDE 软件中执行一个白车身 轻量化的优化 计 算 任务 , 在 计算 中 途 改 变 计算 节点 规 模 , 达 到 伸 缩 该 任 务 电 力负荷 的 目 的 , 记录计 算消耗 时 长。 基 线 在 2 台计算节点上运行计算任务, 一直到计算完毕; 缩 容 在 2 台计算节点上运行计算任务, 运行一段时间后中断任 务, 再将剩余的计算量在 1 台计算节点上续算, 一直到计算完毕; 平移扩 容 在 2 台计算节点上运行计算任务, 运行一段时间后中 断任务, 再将剩余的计算量在 3 台计算节点上续算, 一直到计算 完毕。 缩容 平移 扩容 2 节点运算 1 节点运算 中断 记录功 率和 时长 独立型 并行 计算任务 2 节点运算 3 节点运算 2 节点运算 图 21 策略测试流程图 9 腾讯调研云白皮书 | 数 据 中心 算力-电 力灵 活 性 协 同 研 究 测 试 流 程 执 行 VASP 并 行计算任 务, 在计算 过 程中进 行断 点 续 算 和计 算节 点 规 模 的改 变 , 达 到平 移和 伸 缩 该 任 务电 力负荷的目的, 记 录计算消 耗 时
点击查看更多>>

京ICP备10028102号-1
电信与信息服务业务许可证:京ICP证120154号

地址:北京市大兴区亦庄经济开发区经海三路
天通泰科技金融谷 C座 16层 邮编:102600