从算力多元化、算力调度、应用生态、运营模式四个方面入手,提升智算中心利用率。
智算中心作为AI时代必备的算力基础设施,正承载着AI繁荣发展的数据运算需求。在智算中心建设如火如荼之际,如何提升智算中心利用率,成为亟待解决的问题。
智算中心通过算力生产、聚合、调度和释放,面向政府、企业、高校和科研机构等提供普惠公共算力服务。智算中心在建设和运营过程中,面临算力使用率不高、算力结构不合理、应用生态不完善、运营模式不成熟等诸多问题。其中,算力使用率不高是智算中心面临的主体问题之一。
浪潮信息AI和HPC产品线总经理刘军表示,智算中心建设初期,由于应用生态不完善,算力规模与客户的真实需求不匹配,导致算力空闲率较高。据浪潮AI研究院测算,我国智算中心平均算力使用率为30%左右,远低于大型数据中心的50%~60%的水平。
算力利用率涉及软硬件、网络、训练策略及算力调度等多个层面。根据中国信通院发布的《智算基础设施发展研究报告(2024年)》,影响算力利用率的重要的条件包括芯片存储量、算力损耗、“通信墙”即多卡互联与多机互联时面临的通信瓶颈等。
硬件配置方面,使用高性能计算节点,如专业的AI芯片或高端GPU,以确保单节点的计算能力最大化。同时,根据AI训推任务的需求,合理配置服务器的内存、存储和I/O性能。英伟达中国区首席技术官表示,“GPU的算力利用率受到内存带宽和访存效率的影响。通过引入高带宽内存(HBM)和优化内存访问模式,可以明显提升GPU的计算效率。”
软件与算法方面,AI训练需匹配更高效的深度学习框架,另外,还要对算法进行并行化处理,以充分的利用多核处理器及多GPU优势。华为有关人员表示,“当前算力利用率不足的问题,很大程度上源于软件层面的瓶颈。通过优化编译器、运行时的环境,以及算法本身,可以明显提高算力资源的使用效率。”
网络性能方面,在构建高性能计算集群时,选择正真适合的网络架构至关重要。有数据表明,网络的丢包率达到1%时,智算中心集群中的GPU利用率就会在原有基础之上下降 50%。目前一些智算集群就采用了高效的InfiniBand、RoCE网络,以充分满足AI大规模并行计算要求。阿里巴巴达摩院相关负责这个的人说, “在大规模分布式计算中,通信延迟是一个重要的瓶颈。基于RDMA的高速互联技术,以减少节点间的通信开销,从而提升整体算力利用率。”
在AI训练策略上,采用数据、模型或流水线并行等分布式训练方式,并采用更高效的资源管理与调度器,利用缓存机制及训前预热策略,通过调整及优化超参数等措施,也可以明显提升算力集群的性能和效率。微软亚洲研究院研究员表示,“模型训练过程中的算力利用率往往受到数据预处理和批量大小的影响。通过合理的数据预处理和动态调整批量大小,可以有效提升模型训练的效率。”
算力调度也是影响算力利用率的因素。腾讯云副总裁刘杉表示,提高算力利用率的重点是精细化的资源管理。智能调度系统,能够准确的通过任务特性和实时负载情况,动态调整资源分配,确保每个任务都能获得最佳的执行环境。” 清华大学计算机系教授陈文光表示,在大规模并行计算中,任务调度和负载均衡是很重要的。
针对智算中心利用率不高的问题,业界专业的人建议从算力多元化、算力调度、应用生态、运营模式四个方面入手,提升智算中心利用率。
一是推动算力多元化,满足多种场景需求。智算中心应提供多元化的算力,满足多种行业、不同应用场景的需求。例如,针对图像处理、语音识别等场景,智算中心应提供高性能的GPU算力;针对自然语言处理、推荐系统等场景,智算中心应提供高效的CPU算力;针对自动驾驶、智能制造等场景,智算中心应提供高可靠的FPGA算力。
二是加强算力调度,实现算力资源高效利用。算力多元化要求智算中心具备异构算力融合能力。算力调度是算力资源效率最大化的路径。算力调度需要解决算力资源异构性、算力需求动态性、算力资源分布性等挑战。算力调度将算力资源在不同用户、不同应用、不同时间进行动态分配和优化,以提高算力资源利用率和降低算力成本。目前,地方政府、科研机构、算力企业等多方主体积极布局算力调度领域。据不完全统计,目前国内在建和已经建设的算力调度平台超过20个。
从算力多元化、算力调度、应用生态、运营模式四个方面入手,提升智算中心利用率。
三是完善应用生态,促进算力与数据、算法协同。应用生态是指基于智算中心提供的算力资源,构建面向不一样的行业、不同应用场景的算法模型和应用软件。完善的应用生态能吸引更多用户使用智算中心提供的算力资源,来提升算力利用率。
完善应用生态需要政府、企业、高校和科研机构等多方一起努力。政府应加强政策引导,鼓励企业、高校和科研机构基于智算中心开展算法模型和应用软件研发;企业应加强与高校和科研机构的合作,一同推动算法模型和应用软件的研发和应用;高校和科研机构应加强对AI领域人才的培养和引进,为算法模型和应用软件的研发提供人才支撑。
四是创新运营模式,实现算力资源可持续运营。智算中心建设投资大、经营成本高,怎么来实现算力资源的可持续运营是智算中心面临的又一挑战。创新运营模式,实现算力资源的共享、交易和增值服务,是提高算力利用率、降低经营成本的有效途径。
创新运营模式需要政府、企业、用户等多方共同参与。政府应加强政策引导,鼓励企业组织算力资源共享和交易;企业应加强与用户的合作,共同探索算力资源的共享、交易和增值服务模式;用户应热情参加算力资源的共享和交易,降低自身算力成本。
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
美媒统计球迷票选各位置Goat:乔丹77%选票完胜科比,库里得票43%
英超悲喜1夜:曼城13场1胜 曼联5轮4负 切尔西10轮首负 利物浦3-1
《编码物候》展览开幕 北京时代美术馆以科学艺术解读数字与生物交织的宇宙节律
父女俩合拍视频,女儿坐下的那一刻,老爸笑了,网友:哪个家长能忍住不乐呢!
挂票都拴不住小孩的社牛,主动给旁边帅哥打招呼,宝宝:让我看看你在看什么
威刚预告全球最小 USB4 pSSD 和首款带磁吸充电宝 pSSD 亮相 CES
354+ 个芯片平台适配小米 Vela,60+ 厂商加入全球合作伙伴计划