近年来,AI技术的崛起,加速推动数据中心等基础设施全面走向重塑。

然而,与AI服务器(#巨头“ALL IN AI”,算力产业链或受益#)、AI芯片等炙手可热相比,BMC(Baseboard Management Controller,即基板管理控制器)固件似乎并非聚光灯下的主角,却又在基础设施演进中发挥着不可替代的作用。尤其是AI应用井喷、AI集群规模愈发庞大、数据中心各类设备数量持续攀升的背景下,服务器的BMC固件堪称解锁大规模多元算力基础设施运维管理的“金钥匙”。

正所谓见微知著、睹始知终,作为大规模算力基础设施的运维管理的关键,BMC固件自身在AI时代也在发生巨大变化。以OpenBMC为代表的开放固件,全面驱动着BMC固件技术走向开放与协作,从产业生态、产品技术和解决方案等方面突破传统技术的瓶颈,探索出基础设施运维管理的共赢之路。

近日,《BMC开放固件产业报告》(以下简称:《报告》)出炉,不仅总结开放固件产业十年发展状况,更展望BMC管理技术未来的演进趋势和方向,标志着开放固件产业以积跬步至千里、积小流成江海的态势,全面开启产业快速发展的新篇章。


传统技术路线瓶颈凸显

在算力基础设施向多元化演进,算力架构全面转向以加速器为中心的趋势下,传统BMC固件的技术路线正遇到巨大的瓶颈。

究其原因,人工智能、大数据、云计算等多样性业务应用的驱动,使得算力基础设施发生根本性变化,基础设施的监控管理需要在架构兼容性、平台适应性及业务场景灵活支持等方面适配全新的需求。AIGC的爆发,给数据中心等基础设施带来一系列全新的挑战,也是BMC固件加速变革的重要时间点。

面对这些变化,传统BMC固件技术逐渐“捉襟见肘”。

其一、无法满足多处理器平台架构的兼容性需求,传统BMC固件采用耦合设计,架构封闭且可扩展性差,难以适配多元算力芯片、用户需求的多样性和业务场景的快速变化;

其二、固件开发迭代与算力快速发展严重不匹配,传统IBV Codebase长达半年乃至一年的固件迭代周期,与AI时代多元异构算力芯片的快速迭代周期脱节,加上传统固件处理问题效率低下,严重制约了算力基础设施的快速演进。

其三、封闭生态与快速变化的创新需求矛盾突出,传统BMC采取闭源模式与严格的许可协议,限制用户对于固件的分发、修改与定制化开发,难以满足数据中心对基础设施运维管理的标准化、智能化和精细化等需求。

传统IBV还是以封闭架构为主,代码转发受制于商业考量,需要付费授权等,从最重要的客户侧来看,国内外一些大型互联网、CSP厂商均在加速从传统方案向开放性方案迁移。

事实上,与数据中心硬件开放的大趋势一样,BMC固件在传统技术瓶颈凸显之际,也全面走向开放。以OpenBMC为代表的开源项目,通过十年时间的耕耘,为开放固件产业的发展夯实了牢固的生态、技术基础。

OpenBMC十年,开放固件产业成型

开放与协作是BMC固件领域近年来最大的呼声。

如今,开放固件已然形成产业良好发展的态势,哪怕是传统BMC技术方案商,也在积极拥抱开源项目和推出开放固件场景。这一切源于2014年OpenBMC开源项目的成立,以及数据中心用户、系统厂商、芯片厂商等产业上下游伙伴之后的持续推动。

《报告》就指出,OpenBMC相较传统BMC固件,在技术架构、开发模式上具有显著优势,通过高度可扩展的软件框架、归一化的接口,实现多元算力的兼容适配,并提升平台的稳定性,为产业联合创新提供统一的平台。2024年可谓是开放固件产业化落地的元年。上至用户侧,下至芯片厂商,均在积极拥抱基于OpenBMC的开放固件方案。

OpenBMC之所以能成功引领开放固件产业的快速发展,首先离不开过去十年产业界上下游伙伴的广泛参与,并形成良性的产业生态。从2014年OpenBMC项目正式成立,到后续国内外互联网公司、CSP厂商陆续加入,再到2018年Linux基金会正式接纳,OpenBMC项目用十年时间建成完善的产业生态和活跃的技术社区。

目前,OpenBMC社区用户涵盖最终用户、处理器厂商、系统厂商、IBV等43家企业;2018年至2024年9月,OpenBMC代码贡献量每年超过25万行,社区持续保持高度活跃状态,在CSP客户的大规模数据中心,部署节点均已超过上万台,像IBM、Intel、AMD、浪潮信息等上下游企业均积极参与,其中浪潮信息已连续5年在社区代码贡献榜中稳居中国第一。


其次,OpenBMC在技术层面经过十年的打磨,稳步构建起层次分明、易于扩展、稳定性强的开放软件框架,并且与Linux开源生态深度整合,广泛兼容多种处理器平台与算力芯片,支持快速、灵活的模块化开发与适配,采用C++面向对象编程也极大地丰富了函数库资源和提升开发效率。

更为难得的是,OpenBMC遵循Apache 2.0开源许可,彻底打破过去传统BMC封闭开发的模式,鼓励代码自由使用、修改和分发,大幅提升开发效率和技术创新活力。

第三,OpenBMC真正成为技术创新的催化剂,成功将用户快速变化的场景需求与技术创新进行对接,让快速响应、高效创新切实可行。

相比于一些传统IBV厂商的产品,OpenBMC在BMC如何与AI融合、精准预测等均走在产业探索的最前沿,功能创新和性能等方面更具优势。

例如,随着大模型进入到各行各业,万卡规模的AI集群也越来越多,但是AI集群随着规模的持续增加,遇到突出的挑战就是内存故障而引发的大量训练任务中断,严重影响到大模型的训练效果和AI应用创新。这是当前乃至今后很多用户均会遇到的挑战,但如果依靠传统BMC技术的迭代方式和开发速度,显然很难满足市场中的新需求。

对此,作为OpenBMC项目的深度参与者,浪潮信息($浪潮信息(SZ000977)$)快速创新,成功研发内存故障智能预警修复技术,基于对上万台服务器故障数据的建模分析和AI模型算法的训练,从内存故障提前预警、内存错误实时隔离、内存故障智能修复等技术层级创新,实现在架构设计、错误类型、防护等级等方面全面增强,让内存故障导致的服务器宕机风险降低80%+,保障客户业务高效稳定运行。

开放固件产业壮大,OpenBMC任重道远

问渠哪得清如许,唯有源头活水来。

如今,凭借开源共享的理念和前沿的技术架构,OpenBMC实现对服务器管理市场格局的重塑,打破了传统BMC市场的高门槛和专有技术壁垒,大幅提升市场创新活力,赢得产业链上下游的广泛认可和积极参与,成为开放固件产业的创新源头和活水,推动开放固件产业的建立和稳步发展。

不过,要想让开放固件产业持续壮大,OpenBMC依然任重道远,需要在标准化、产业拓展和生态协同发展等方面持续下功夫,逐步形成可持续的发展模式,真正满足更加广泛的市场需求。

首先是如何加速标准化的进程,逐步破解兼容性与互操作性难题。越来越多产业伙伴、用户加入其中,OpenBMC对于标准化的进一步深化,无疑将有助于降低系统整合的复杂性和提高不同设备之间的互操作性,提升数据中心运维效率与稳定性。

例如,近年来《服务器基板管理控制器(BMC)技术要求》与《服务器基板管理控制器(BMC)测试方法》等一系列关键标准的颁布,对于BMC固件的规范化发展奠定坚实基础。后续,随着更多标准化举措的实施与完善,BMC开放固件的标准化水平也有望得到持续提升。

第二,OpenBMC用十年时间征服了互联网公司、CSP厂商,接下来最重要的工作就是如何实现行业、应用场景的延伸与扩展,逐渐延伸到金融、运营商等行业之中。众所周知,金融、运营商等传统行业由于自身业务的需求不同,对于BMC固件的稳定性、可靠性要求更高,对于像OpenBMC等开源方案也会更加谨慎。但随着开放固件在技术上的成熟,加上有互联网的标杆效应,像金融等传统行业也会积极拥抱OpenBMC。

第三,OpenBMC社区的繁荣发展,参与者越来越多,不可避免地会出现版本分化的情况出现,影响系统的统一性和兼容性,需要OpenBMC项目在保持开放性的同时,也需要确保项目的统一性和方向性。

社区主线不会无限吸纳各种Feature,且每个代码模块都有资深专家来维护,以确保代码的通用性。此外,从长期来看,OpenBMC会类似Llama那样,形成一个开放的方案和多个分支,在开放性、统一性等方面取得一定的平衡。

作者声明:个人观点,仅供参考
追加内容

本文作者可以追加内容哦 !