回国6年干出一个AI芯片准独角兽,专访中昊芯英创始人杨龚轶凡
本文来源:时代周报 作者:郭美婷
靠GPU赚得盆满钵满的英伟达,正在遭受反扑。
从谷歌的TPU、苹果的M1和M2、微软Maia 100和Cobalt 100、Meta的MTIA、亚马逊的Trainium和Inferentia、特斯拉的Dojo,到英特尔的FPGA系列、AMD的MI300系列……巨头们一次次冲击着英伟达的帝国围墙。
近期,苹果在一篇技术论文中表示,支撑其人工智能系统AppleIntelligence的两个人工智能模型,是在谷歌设计的云端芯片上进行预训练的。
谷歌设计的芯片是TPU(Tensor Processing Unit,张量处理单元),这是谷歌专门为加速机器学习应用中的矩阵运算而设计的一种定制化DSA(Domain Specific Architecture,领域特定架构)芯片。自2015年推出以来,谷歌的TPU已经发展到第六代,成为了对标英伟达AI芯片的强力替代方案之一。
在中国,在AI竞速的大时代里,芯片自研的迫切感更重。国产GPU、AI芯片从业者和科技厂商们无不在找寻突破口。
中昊芯英(杭州)科技有限公司(下称“中昊芯英”)是其中一员。创始人杨龚轶凡曾在谷歌TPU核心研发团队参与过TPU v2/3/4的设计与研发工作。
2017年,杨龚轶凡见证团队研发的TPU芯片训练出了Transformer框架。TPU和Transformer为自然语言处理(NLP)领域带来了革命性的变化,也开启了现代大规模预训练模型的时代。
杨龚轶凡从中看到AI的未来,也看到了作为AI基础设施AI芯片的价值:“以前的计算是一块芯片上跑一个应用或多个应用,现在是一个应用跑在一千块甚至上万块芯片上,这是人类计算历史上的大变革。该变革给了所有技术迭代的空间及机遇。”
2018年,杨龚轶凡归国组建中昊芯英的核心创始团队,并于2020年落地杭州,产品线主要围绕人工智能芯片,特别是TPU芯片展开。历经了近五年的研发,2023年下半年,基于全自研GPTPU架构的高性能TPU人工智能芯片刹那实现量产。2024年被杭州市创业投资协会认定为杭州市准独角兽企业。
中昊芯英也是初创芯片公司中,少数已实现盈利的。2023年,中昊芯英的整体销售额达4.85亿元,归母净利润为8132.64万元。据了解,中昊芯英目前的客户以政府、运营商、企业为主,多为合作共建智算中心。近日,中昊芯英又宣布与上市公司艾布鲁旗下子公司星罗智算科技(杭州)有限公司达成了战略合作。目前,中昊芯英已经完成了Pre-B、Pre-B+轮融资。
但是,在GPU处于绝对垄断地位的当下,GPU的通用性和生成式AI上的强大性能已经过广泛验证。对比之下,TPU主要针对机器学习和深度学习任务,对于如图形渲染、物理模拟等计算任务并不擅长。
TPU能否成为GPU的替代方案?如何构建和优化围绕TPU的软件生态系统?TPU有可能成为国产AI芯片的新机遇吗?带着疑问,时代周报记者走进中昊芯英,与创始人及CEO杨龚轶凡进行了面对面访谈。
TPU,AI芯片新解法?
时代周报:GPU和TPU各具优势,中昊芯英为何会选择专注在TPU赛道上跑?
杨龚轶凡:GPU 具有大量结构较为简单的并行处理单元,适合处理高度并行的任务,如图形渲染和科学计算,因此被广泛应用于计算机图形学、游戏开发、视频编码/解码、深度学习训练和推理。
TPU特别适合于处理矩阵乘法等常见于神经网络的操作,主要用于机器学习和深度学习模型的训练和推理,特别是使用 TensorFlow 框架的任务。
早先,非深度学习模型如GBM(Gradient Boosting Machine)和Random Forest等,在GPU上展现出的性能更好,这是因为TPU的通用计算能力有限,它的设计更针对深度学习任务,所以早年的表现不是很突出。然而,近年来,无论是AI小模型还是AI大模型,几乎无一例外地转向了深度学习,尤其是那些以Attention机制和矩阵乘法(MatMul)作为核心运算的模型,这恰恰是TPU所擅长的领域。
随着技术的发展,TPU在相同制造工艺、能耗和芯片尺寸下,相比GPU能提供3到5倍的性能提升。这意味着,在相同的条件下,TPU架构能够以更高的效率完成模型训练,从而显著提升性价比。在AI领域,尤其是深度学习模型的训练和部署,性价比是决定模型能否广泛落地的关键因素。
因此,从长远来看,TPU比GPU在AI赛道上更具竞争力。虽然未来的AI模型也许不完全遵循现有的Transformer解码器架构,甚至可能出现新的基础运算会取代MatMul,但深度学习无疑仍是AI领域的主导力量。深度学习的某个分支将承载着未来100%的AI应用,这一点是毋庸置疑的。
生态难题能解?
时代周报:如今,主流的AI框架都提供了GPU加速的支持,但是TPU之前是谷歌专门为TensorFlow和自身的云平台设计的,其硬件和软件的可用性可能不如广泛支持各种深度学习框架和平台的GPU,中昊芯英打算如何解决这一问题?
杨龚轶凡:TPU的概念在国外正在获得关注与普及,并未局限于谷歌的围墙内。许多初创企业虽未直接冠以TPU之名,但其设计理念与TPU颇为相似。例如,专注于开发高性能AI芯片的初创公司Groq所开发的LPU(Language Processing Uni),从其技术白皮书中可以看出,其芯片架构与TPU异曲同工。全球范围内,TPU及其类似技术的公司如雨后春笋般涌现,不断推动着技术的边界。
另外,软件栈也不是一成不变的。曾经,CUDA与流行的开源机器学习库PyTorch紧密相连,为GPU提供高性能计算能力。然而,随着TPU等非GPU架构的兴起,软件栈开始适应多平台需求,PyTorch 2.0及后续版本已将TPU作为标准分类纳入支持范围,这意味着开发者在使用PyTorch时,可以无缝切换至TPU。
随着软件栈的不断更新与优化,以及硬件领域的持续革新,我认为整个行业对TPU的接纳程度将日益提高。
时代周报:英伟达构建了一套全栈式解决方案,结合硬件、软件和服务,形成闭环的生态系统,覆盖从边缘设备到数据中心的各种应用场景。未来中昊芯英是否将构建自己的全栈式的TPU产品和技术?
杨龚轶凡:在AI赛道,芯片企业一定是向着全栈解决方案迈进的,而且是软硬件一体协同。
当前,业界普遍支持PyTorch框架,因其低迁移成本吸引了大量用户。然而,随着用户基数的扩大和行业解决方案的深化,软硬件一体化公司的优势开始凸显,能够提供从基础模型服务、开源模型、到模型预训练的全面支持。
未来,软硬件一旦达到高度协同,芯片的性价比将有望实现2到3倍的飞跃。
时代周报:此前业内认为,除去产品本身,生态才是英伟达最大的护城河。英伟达又利用CUDA平台建立了庞大的开发者生态系统,这是难以“突围”英伟达的原因。您认为该如何破局?
杨龚轶凡:我从另外一个角度去回答这个问题。何为软件生态?目前软件栈AI的框架最流行的是PyTorch,CUDA是在PyTorch下面一层。如果使用GPU, PyTorch就必须链接到CUDA接口上,选择GPU,必须支持CUDA。
随着时间的迁移,在PyTorch2.0以后,TPU已经是个标准的分类了,在 PyTorch里面也已经有了很好的支持了,而且TPU相对简单,不必像GPU那样承担繁重的CUDA兼容性负担,反而可以采取更为简洁和高效的软件栈。
据估算,TPU的软件生态构建工作量仅为CUDA的三十分之一,这不仅降低了人工成本,还使得其解决方案在支持度和通用性上更具优势。
现在大家都支持PyTorch,因为PyTorch平台用户的迁移成本较低。但当用户获取量越来越多,开始深入行业解决方案的时候,这就会变成是我们的强项了,核心在于我们是真正的做软硬件一体化的公司,我们能够提供行业大模型的基础模型服务、基础模型的开源、基础模型预训练,当我们把模型的整个软件栈框架搭好后,那么行业客户就可以基于自身行业数据,在我们的这个框架上调用接口,就可以完成模型的二次训练。这样就可以把模型应用在具体场景里面去替代生产力了。
商业路径几何?
时代周报:我们了解到中昊芯英在金融、医疗、教育等领域布局了预训练大模型,作为一家芯片公司,为何入局大模型?
杨龚轶凡:我们希望实现软硬件的一体化协同,通过训练基础模型,并将其开源,同时配套完善相应的软件框架,如此一来,我们为客户提供了完整的解决方案。这一过程被比喻为“钥匙工程”:客户准备和整合自身数据,通过我们交付的接口即可启动模型训练。
这些开源模型不仅仅是技术上的突破,更是芯片公司的核心资产。类似于CUDA这样的软件生态系统,是芯片公司技术护城河的重要组成部分。CUDA为英伟达的GPU构建了一个强大的软件开发平台,使得开发者能够轻松利用GPU的计算能力进行AI应用开发。但如今,CUDA在AI软件生态中的统治地位正在受到挑战,PyTorch框架与微软的合作,正致力于在其内部开发替代CUDA的底层架构,这意味着CUDA在AI领域的影响力正在逐渐减弱。
因此,芯片公司通过培育开源模型,构建自己的软件生态系统,能够吸引开发者围绕这些模型进行应用开发和优化,进一步巩固和扩大自己的市场地位。
时代周报:当下很多芯片公司还处于亏损,为什么中昊芯英能够在相对短时间实现盈利,模式是怎样的?
杨龚轶凡:首先是因为我们创始团队对于做AI芯片有一种信仰,这也是我们创业的核心的原动力。
当时我们创业可以选择在硅谷,也可以选择在中国。我们那时在硅谷隐约感受到了中美未来科技博弈的不可避免,在国内研发国产化自主可控的AI芯片,不仅能带动经济效益,还能带动社会效益。
彼时,AI企业只能运行较小规模的模型。摆在芯片厂商面前的选择,一是做用于推理场景的“小芯片”,如果做“大芯片”,则多数厂商会选择做GPU,因为GPU的通用性很强,更受推广。
而由于我们一直集中在AI芯片TPU的赛道,如今AI赛道的爆发,对TPU而言就是核心市场的爆发。我们会将所有的优势资源、研发能力和精力集中在这一块,推动整个大模型的落地和行业发展。
2023年下半年我们的产品落地,当年整体销售额达4.85亿元,归母净利润达8132.64万元。
目前,我们已与青海·海东“丝绸云谷”低碳算力产业园、中国联合网络通信有限公司深圳市分公司、新华三集团等各地政府、运营商、企业合作。其中,2023年,中昊芯英与青海亿众数字能源科技有限公司联合签约,在青海·海东“丝绸云谷”产业园中推动设立“唐古拉”AI算力实验室,为项目搭建AI计算底座,该项目总投资约230亿元,分两期建设,是国内首个完全定位于“大算力+大模型”形态的大型人工智能计算中心。
本文作者可以追加内容哦 !