$科德教育(SZ300192)$  

构建大模型,GPU是唯一生命线?未必

张洁 中昊芯英科技
 2024年10月11日 10:00 浙江 2人听过
反馈
  • 标题有误导性
  • 大模型一朝起飞,算力需求激增。面对「一卡难求」的困境,到底如何破局?苹果放弃 GPU 选择 TPU 的背后有何玄机?国产芯片创业企业如何在巨头垄断的赛道上实现突围?51CTO记者与中昊芯英创始人& CEO 杨龚轶凡,以及赛智伯乐投资合伙人蔡哲文就上述议题进行了探讨。

    OpenAI 前首席科学家伊利亚曾公开表示,「GPU 就是新时代的比特币」。

    大模型一朝起飞,算力需求激增。作为 AI 淘金热里「卖铲子的人」,英伟达也因此成为了这轮技术变革里的最大赢家。随着 AI 军备竞赛的升级,即使 GPU 价格一路看涨,市面上也常常「一卡难求」。

    一方面,GPU 产能吃紧,实在无法跟上需求;另一方面,若是算力供给受制于人,那就等于将领先窗口期拱手让人。在这一背景下,众多厂商要么自研芯片,要么寻找替代方案,在 GPU 之外寻找新的算力解决之道。

    那么,面对“一卡难求”的困境,到底如何破局?苹果放弃GPU选择TPU的背后有何玄机?国产芯片创业企业如何在巨头垄断的赛道上实现突围?

    本期「AIGC 实战派」邀请中昊芯英创始人& CEO 杨龚轶凡,以及赛智伯乐投资合伙人蔡哲文就上述议题进行了探讨。

    GPU 不会是整个 AI 大模型的终点

    放眼当前的 AI 芯片市场,英伟达可以说一枝独秀。而英伟达之所以能占据如今的生态位,在蔡哲文看来,可以说「三分天注定,七分靠打拼」。

    他谈到,英伟达的成功首先得益于它抓住了 AI 技术发展的大趋势。正所谓「时势造英雄」,随着大模型崛起,生成式 AI 遍地开花,算力需求激增,恰好市场上又缺乏专门针对这一领域的芯片,英伟达的 GPU 成为了一个自然的、合适的选择,从而占据了市场的先机。

    更重要的是,英伟达在发展过程中坚持不懈地做出了种种努力。“在 2006 年左右,英伟达推出了 CUDA 系统,最初其实面临非常大的内部阻力,毕竟它不是一个能赚钱的东西,但最终英伟达坚持了下来,坚持推广这一系统,让大家接受并认可以此为中心构建的生态,从而自然而然地去用它的芯片。”最终英伟达成功地培养了用户习惯,建立了品牌忠诚度,也为它的产品创造了持续的需求。

    那么英伟达是否会继续这样一骑绝尘下去呢?未必。

    “从产品和技术角度上来说,我们不认为英伟达的 GPU 会是整个AI大模型的终点。”杨龚轶凡给出了这样的判断。

    这位在人生的关键节点选择了回国创业的年轻创始人直接指出:“因为这个市场过于大了,所以会让大家对市场上的很多现象产生‘误解’。为什么如今英伟达 GPU 可以形成‘垄断’?因为还没有专业的芯片出来,专业芯片还在设计、量产的路上,但此时整个行业应用爆发了。”

    人类历史上,半导体的整个发展历程总是以十年为一个周期发生重大变革。每一次变革都是因为现有应用的需求超过了现有工具的能力,当这个临界点到来,自然会催生新的技术和产品。

    杨龚轶凡表示:当前 AI 的爆发正处于这样一个节点,虽然初期各种应用可以利用现有芯片满足需求,但随着应用的深化和市场扩展,专业 AI 芯片的出现将不可避免地改变市场格局。

    “(未来)GPU 可能只占据 10% 到 20% 的市场,剩下 80% 的市场都是由新型的 AI 芯片去占据。我们希望 TPU 会成为 80% 的市场份额里面的主力军。这是我们的愿景,也是我们为什么在国内成立中昊芯英的原因。”

    挑战英伟达:寻找破局的可能

    当然也有人说,英伟达的显卡未必是最适合的AI训练工具,但它的 CUDA 生态,全球仅此一家。

    由于 CUDA 的普及,大量的开发者和研究人员开始基于 CUDA 开发应用,形成了庞大的用户基础和应用生态。这种广泛的应用基础为英伟达 GPU 创造了强大的生态壁垒,使得其他竞争对手难以企及。但是随着技术的发展和市场需求的变化, CUDA 的局限性也逐渐暴露,一些初创公司和团队正在尝试摆脱 CUDA,寻求开发更高效、更适应特定需求的解决方案。

    杨龚轶凡认为,任何行业包括人工智能行业在内,一般都可以分成两个阶段:在研发阶段,迭代速度是关键,因此开发者倾向于使用更熟悉的工具,这些工具的性价比是否是最优的反而不是主要考量因素;在产品化和商业运营阶段,尤其是大规模部署往往导致成本的敏感性增加,此时性价比往往会成为关键要素。这也是为什么 CUDA 生态虽然成熟,但到了产业化阶段,就会显现出其在性价比方面的劣势。

    “因为所有通用的东西,它都是以损失绝对性能作为代价的。”杨龚轶凡强调,CUDA 作为一个通用的软件栈,虽然提供了广泛的支持,但这种通用性是以牺牲一定性能为代价的。在特定应用场景下,这种性能损耗可能导致性价比不高,进而促使行业去寻求更定制化、更优化的软件栈。

    另外值得关注的一点是,英伟达不仅是 GPU 制造商,也是大模型的重要构建者。遗憾的是,尽管英伟达在大模型领域投入巨大,但其 GPU 架构和 CUDA 软件栈可能无法满足未来技术演进对计算性能、成本效益和网络互联的更高要求。

    杨龚轶凡指出,对于一个科技公司尤其是芯片公司而言,“它没有任何可能性更改自己的核心构架,完全去革自己的命”。因为这涉及到从零开始重新设计和开发,这是一个漫长且复杂的过程,相应的,建构在此之上的软件栈同样也要从头开始。换言之,无论是芯片还是软件栈,后续迭代都是基于前一代产品的实验结果和真实场景。

    某种程度上,“GPU 最大的优势可能就是 CUDA,但它的最大的劣势也是 CUDA”。

    “因为 CUDA 软件栈限制了它。如果将来我决定不再使用 GPU,转而采用 TPU、LPU 等其他更适合执行深度学习任务的硬件架构,这种惯性依赖就会变成它的限制条件。尽管 GPU 可以通过优化提高性能,但它存在一个理论上的天花板。相比之下,专门为 AI 设计的芯片如 TPU,其性能上限可能远高于 GPU。随着大模型的应用落地规模化产业化,更有效的 AI 芯片如 TPU 可能就会迎来爆发,因为它们能提供更高的性能和更低的成本。”

    蔡哲文对此也表达了认同。在他看来,终有一天 GPU 也会变得不那么合时宜,正如当年 GPU 取代了 CPU 在图形处理方面的功能一样,现在出现了专门为 AI 设计的芯片,这些专用芯片在处理 AI 任务时比 GPU 更加高效。只要未来整个 AI 应用的场景持续不断迭代,整个市场变得足够大,专用芯片逐渐取代 GPU 在 AI 领域的主导地位也是一个必然的趋势。

    此外,蔡哲文还提到一点:GPU 虽然在并行处理方面表现出色,但其能耗相对较高。随着对能效比要求的提升,高能耗可能会成为 GPU 在 AI 领域的一个劣势,尤其是在大规模计算任务中。不同地区在电力供应和新能源技术方面的差异可能会影响 AI 硬件的选择。如果 GPU 的高能耗成为限制因素,而专用 AI 芯片能提供更低的能耗和更高的性能,它们可能会成为更受欢迎的选择。

    TPU 启示录:谷歌往事 & 苹果的选择

    随着历史的车轮滚滚向前,GPU 可能不再有今日的地位,但是当下 GPU 依旧主导了当前这个 AI 时代的硬件供应,而就在这样强势的包围下,谷歌 TPU 依旧穿越了重重考验,在时间的历练中成长为一个真正富有竞争力的对手。

    2016 年 5 月,谷歌在 I/O 大会上首次公布了 TPU,并且称这款芯片已经在谷歌数据中心使用了一年之久,李世石大战 AlphaGo 时,谷歌直接将 TPU 称之为 AlphaGo 击败李世石的「秘密武器」。那么在已有 GPU 的前提下,谷歌为何执意要开发 TPU 呢?

    杨龚轶凡提到,谷歌开发 TPU 的过程实际是一个「无心插柳柳成荫」的故事。TPU 的产生并非谷歌高层直接规划的结果,而是内部团队自发探索、逐步验证、进而抓住时代契机实现商业化的过程。

    最初,它诞生于一个内部创业项目。因为谷歌内部的创业环境允许团队进行自主探索和创新,TPU 正是这种机制下的产物。不过鉴于软件项目的增长潜力、变现速度远大于硬件,所以 TPU 本身价值是不符合创始人愿景的,它需要验证其在特定领域的发展潜力。

    于是, TPU 流转于谷歌内部不同部门之间,在不同的应用场景下接受考验。幸运的是,通过不断地试用和迭代, TPU 逐渐展现出其在模型训练和推理中的效率和成本优势。特别是在谷歌广告部门使用后,推荐系统的精准度有所提升,这直接关联到营收增长,证明了 TPU 的商业价值。

    这也为谷歌继续投入资源进行 TPU 的研发和迭代提供了动力。最终,随着 AI 技术的发展和大模型的崛起,TPU 成为了谷歌在 AI 领域的一个重要竞争力。

    不过在很长一段时间内,TPU 还是在 GPU 的暗影下低调发展。直到最近,苹果公布 Apple Intelligence 的细节,才再次让 TPU 走到台前,接受聚光灯的洗礼。根据相关论文的披露,苹果并没有采用常见的英伟达 H100 等 GPU,而是选了谷歌的 TPU,训练 Apple Intelligence 的基础模型,一时引起了诸多讨论。

    对此,杨龚轶凡表示,起初 TPU 是谷歌自家使用的技术,并未开放供外部使用,但其开源文化昭示着它终会将 TPU 集群作为云服务的一部分对外开放,以推动整个行业的发展。而苹果是除了谷歌之外第一个使用 TPU 进行大模型训练的大型玩家。

    “从技术角度来说的话,它主要的商业驱动力还是性价比。”杨龚轶凡介绍,TPU 在相同制程、工艺和能耗条件下,由于其架构的特殊性,在深度学习和大模型领域具有更高的芯片利用率,通常可以实现 3 到 5 倍的性能提升,且在相同算力下成本可降低 50%。而在商业化应用中,成本节约变得至关重要,这时 TPU 的高性价比就成为了关键优势。因此随着行业发展,像 TPU 这样的专用芯片很可能会成为主流算力平台。

    蔡哲文则从行业角度对苹果的这一选择进行了分析。在他看来苹果转向 TPU 主要有四个原因:

    一是市场驱动,随着人工智能的发展,市场需要性价比更高且易于复制的技术;二是技术演进,最初人工智能缺乏专用芯片,GPU 作为一种权宜之计被广泛应用。但现在随着需求激增,需要更具成本效益的芯片。三是市场竞争规律,英伟达目前占据主导地位,但这也激发了竞争对手开发针对 AI 优化的新芯片来挑战其地位。尤其对于中小型新兴企业而言,涉足 TPU 领域是个好机会;四是天然匹配度,TPU 源自谷歌,在与谷歌的大模型框架的兼容性和商业匹配上具有天然优势。总体来说,苹果的选择既是偶然也是必然。

    中昊芯英科技
    ,赞15

    国产 AI 芯片创业企业的技术信仰

    中昊芯英是国内少见的主攻 TPU 的 AI 芯片创业企业。作为其创始人,杨龚轶凡对于如何寻找到自身企业的定位,如何在先发优势明显的创业赛道上实现突围,有着自己的观察和理解。

    “当时我和团队在谷歌看到了 TPU 的成功应用。首先,我们认为,到 2025-2026 年会出现一种智能体,能够成为生产力的核心,真正推动 AIGC 的发展,这一波浪潮值得我们的参与。再者,TPU 对模型的训练和推理的推动效应是很强的,我们相信 TPU 将成为 AI 领域的「x86」。最后考虑到中美之间可能持续的贸易摩擦,作为中国人,我们决定回国创业,致力于自主研发可控的 TPU 技术。”

    不过,就 AI 芯片创业企业来说,中国与海外市场存在一些显著差异。杨龚轶凡谈到:以硅谷为例,那里几乎不会有第二家公司专注于 GPU 开发,大多数企业都在研发诸如  TPU 或 LPU 等新型 AI 芯片。因为这些专业芯片的研发成本较低,生产成本也相对低廉,并且能提供更高的性能,因此在市场上更受欢迎,竞争力更强。

    相比之下,由于中美之间的争端和制裁背景,中国尚未建立起成熟的 TPU 产业链。这为中国的 TPU 创业公司提供了发展空间。因此,无论是在 TPU 领域还是其他专用的人工智能芯片领域,中国企业都有独特的发展机遇和成功之路。

    尤其需要注意的是,对于从事 AI 芯片的创业企业来说,重点在于构建自身独特的软件生态系统,而不是盲目地兼容现有的框架。企业可以通过开发高级软件来突出自身的性能优势,同时保持对某些易于使用的算法框架的支持,以确保开发者的便捷使用。

    此外,面对充斥着变化和不确定性的市场环境,杨龚轶凡建议:首先,不必一开始就追求标新立异,可以先针对明确的需求进行开发,不必刻意创造新市场;再者,对于供应链和国际环境的不确定性,在保持高度关注的同时可以将其视为机会而非纯粹的挑战。因为强化供应链管理和风险抵御能力,这本身就是一种竞争优势。

    蔡哲文则站在投资者的立场,为 AI 芯片创业项目提供了一套评估标准。在他看来,其中有三大要素决定了这一创业项目的成败与前景。

    其一,资金管控能力。芯片开发是一个非常烧钱的高投入行业,尤其是在追求先进工艺时。创业团队需要具备强大的资金整合能力,以确保在产品推出市场前有足够的资金支持。通常来说,资金整合方式可以是融资、借贷或是争取政府项目支持等。

    其二,人才储备能力。团队不仅需要拥有核心技术人才,还需要具备将技术转化为产品的商业化人才。随着业务发展,团队还需要有能力吸引市场拓展和企业管理等方面的专业人士。综合能力强的团队能够更好地应对从技术研发到市场推广及企业运营的各个阶段。

    其三,供应链管理能力。在研发初期,技术是主要考量因素,但随着项目的推进,供应链管理变得日益重要。特别是在当前中美关系背景下,中国短期内可能无法完全依赖本土供应链。因此,企业需要具备整合国内外供应链的能力,并能够有效应对潜在的政治和国际风险。

    放眼未来 AI 芯片行业的发展趋势时,蔡哲文提到了两点:一是国产芯片的供应链和产业链正在建设中。未来可能会形成一个完整的国产芯片体系。国内芯片公司需要同时具备整合海外供应链的能力,并逐步兼容国内生产线,以降低对外部供应链的依赖风险;二是市场集中度会逐步提高,参考海外经验,预计 AI 芯片行业最终可能由少数几家公司主导。这些主要玩家可能会占据百分之七八十的市场份额,而剩余的小型公司则争夺剩下的一小部分蛋糕。行业竞争加剧下会形成明显的市场领导者和长尾效应。

    中昊芯英科技
    ,赞18


    来源丨51CTO撰稿丨张洁嘉宾丨杨龚轶凡、蔡哲文

    关于中昊芯英

    中昊芯英(杭州)科技有限公司成立于 2018 年,致力于为 AIGC 时代的超大规模 AI 大模型计算提供高性能 AI 芯片与计算集群,是国内唯一掌握 TPU 架构 AI 芯片核心技术的公司。中昊芯英以自研的专为 AI 大模型而生的高性能 TPU 芯片「刹那」为基石,打造支持 1024 片芯片片间高效互联、可支撑超千亿参数大模型的大规模 AI 计算集群 「泰则」,同时自研 AIGC 预训练大模型并携手行业合作伙伴进行金融、教育、医疗等垂直领域专业大模型的探索落地。通过「自研 AI 芯片 + 超算集群 + AIGC 预训练大模型」的三位一体化方案,为全球客户提供具备生产变革能力的 AI 创新技术方案,加速 AI 工程落地与产业化进程。

    阅读 342

    追加内容

    本文作者可以追加内容哦 !