搜索
|
未来3年,智能算力将顺着这条路径发展
出处:CIO时代网    编辑:Mark ·  2023-11-06

生成式AI将为全世界新创造“一个英国的GDP”,而国内大语言模型争先恐后地推出,也说明中国将在这场生成式AI变革中占据自己应有的位置。因此,推动生成式AI发展的算力基础设施,也就必须保持在高水平之上。而建设生成式AI算力支撑的难点,在于要在许多基本技术原理被重新改写的情况下提前进行,在这方面,作为生成式AI应用的先行者,北美数据中心市场已经出现了数据中心容量供需失衡的情况。

《算力基础设施高质量发展行动计划》为智能算力未来3年的发展确定了纲要,但如何确定生成式AI算力支撑的提前量,还需要各位CIO根据自己企业与行业的发展现状,做出精准的判断。从北美市场的情况来看,人工智能将进一步加速数据中心的需求,所以针对这个问题的解决措施,需要从现在开始立即推出。

工业和信息化部、中央网信办、教育部、国家卫生健康委、中国人民银行、国务院国资委等六部门近日联合印发了《算力基础设施高质量发展行动计划》(下称:行动计划),业界认为这份行动度划指明了未来3年算力基础设施的发展方向。虽然行动计划面向智能计算、边缘计算、超级计算等多种算力需求,但其中特别提到2025年智能算力占比要达到35%。针对当前智能算力支撑所面临的问题,行动计划可谓是提前给出了应对之策。

生成式AI的潜力

ChatGPT问世以来,生成式人工智能的经济潜力越来越被关注。麦肯锡在《生成式人工智能的经济潜力:下一波生产力浪潮》报告中指出,如果将分析的63种生成式AI应用于各行各业,将为全球经济每年带来2.6万亿至4.4万亿美元的增长。与英国2021年的GDP总额3.1万亿美元对比,生成式AI可能每年为全球经济贡献“一个英国的GDP”,由此可见生成式AI所具备的巨大潜力。

从生成式AI具体应用情况来看,调查显示,使用生成式AI助手,企业不仅可以多完成12.2%的任务,还能将速度提升25.1%,同时工作结果的质量也因此而提升40%。再从技术发展角度来看,下一代大型语言模型将比目前的GPT-4(OpenAI)、Palm 2(Google)、Llama(Meta)和Claude 2(Anthropic)更复杂、更通用。因此,一场围绕着生态为核心的大语言模型之间的竞争已经展开。

从生态的角度来看,决定着生成式AI能否发挥出巨大潜力的,是生态的强弱,而决定生态能否最终胜出的因素是应用。本次行动计划有四个主要目标,其中之一就是针对这个问题的应用赋能。力图打造一批算力新业务、新模式、新业态,在工业、金融等领域算力渗透率显著提升,医疗、交通等领域应用实现规模化复制推广,能源、教育等领域应用范围进一步扩大。每个重点领域打造30个以上应用标杆。概括起来,就是通过一体化算力服务体系的构建,实现“算力+工业”、“算力+教育”、“算力+金融”、“算力+交通”、“算力+医疗”、“算力+能源”的多行业算力补强。这将对生成式AI在这些行业的应用起到极大的助力作用。

三个难题的解决之策

当生成式AI在算法层面取得大举突破之时,生成式AI的研发和应用却可能遭遇算力瓶颈。算力是集信息计算力、网络运载力、数据存储力于一体的新型生产力,生成式AI所需的算力支撑,在计算力、运载力、存储力都和传统应用有所不同,因而在这三个层面都面临着难题。

在计算力层面,传统应用的算力支撑更多地依靠CPU,而AI所需的智能算力在CPU之外,还需要大量GPU以及如ASICs和FPGAs等专用硬件参与。此外,用于人工智能的机架必须重新设计,以适应额外的重量和热量。因此,智能计算的数据中心建设因此而呈现出高密化趋势,并需要通过异构计算来突破算力瓶颈。

在网络层面,大模型AI场景下海量的参数分布于多个服务器的多个GPU之上,由于需要用到成千上万个GPU来训练数十TB级甚至更大的数据集,大量的GPU之间的通信容易出现由于网络HASH负载分担不均而导致的网络吞吐下降,从而引发AI训练性能整体下降等问题。

在存储层面,由于大语言模型的训练参数越来越多,因此智能算力可能面临着几十T数据的存储和应用,还必须实现高速存储访问,以满足人工智能工作训练和推理所需。

针对这些问题,行动计划给出了未来3年算力基础设施发展的具体目标。其中,在计算力方面,算力规模超过300EFLOPS,智能算力占比达到35%。在运载力(网络)方面,国家枢纽节点数据中心集群间基本实现不高于理论时延1.5倍的直连网络传输,重点应用场所光传送网(OTN)覆盖率达到80%,骨干网、城域网全面支持IPv6,SRv6等新技术使用占比达到40%。在存储力方面,存储总量超过1800EB,先进存储容量占比达到30%以上。

更为重要的,行动计划从全局的高度出发,对于算力均衡发展进行了统筹。不仅优化算力设施建设布局、推动算力结构多元配置、推动算力标准体系建设,还通过优化算力高效运载质量、强化算力接入网络能力、提升枢纽网络传输效率、探索算力协同调度机制,提升了算力高效运载能力。这为生成式AI应用的爆发奠定了基础。

算力的可持续之道

数据中心在2022年使用的电力已达到200T瓦时,这一电量已经占到全球电力使用量的2%。预计到2030年,全球数据中心耗费的电量将占到全球总电量的5%,达到576T瓦时,这个数字将会超过韩国、加拿大或德国的单个国家用电量。生成式AI的崛起使得能耗问题变得更加严峻。

由于AI所需的智能计算需要GPU驱动的机架,与同等CPU容量相比,它会消耗更多电量、散发更多热量并占用更多空间。这就意味着人工智能计算能力通常需要更多的电源连接或替代冷却系统。为此,为了保障智能算力的可持续发展,包括高压直流、预制化、液冷、自然冷却等新一代绿色技术已经逐渐走向数据中心。

行动计划同样关注到了这个问题,在基本原则中就强调了绿色低碳,在促进绿色低碳算力发展方面,通过提升资源利用和算力碳效水平、引导市场应用绿色低碳算力、赋能行业绿色低碳转型,力求全面提升算力设施能源利用效率和算力碳效(CEPS)水平。推动了算力在重点行业发挥应用赋能作用,促进了企业经营活动数智化发展,通过构建“算力+”绿色低碳生态体系,助力各行业绿色低碳发展,这为智能算力的可持续发展提供了必要的保障条件。

未来3年内,通过加强统筹联动、加大金融支持、深化交流协作、强化平台支撑,《行动计划》的落地实施最终将为智能算力的发展提供保障,也将为生成式AI的发展和应用奠定坚实的基础。