集微网报道 (文/陈兴华)被ChatGPT压制整整一年之后,谷歌展开了最强反击战。12月7日凌晨,谷歌CEO桑达尔·皮查伊(Sundar Pichai)和Deepmind CEO戴密斯·哈萨比斯(Demis Hass)在谷歌官网联名发文称,其最新大模型Gemini 1.0(双子星)版本正式上线。在他们看来,Gemini的发布仅仅是一个开始,更大的技术迭代、产品应用和生态构建宏图即将展开。
从测试数据来看,Gemini大模型在知识储备、专业能力和多模态等方面均超越GPT-4,而且部分核心能力首次超越了人类专家,这不仅对OpenAI构成了强有力的冲击和挑战,也标志着AI大模型浪潮进入一个新的阶段。但即使Gemini“效果惊人”,谷歌似乎并没有十足底气,包括没有公布Gemini顶尖大模型的性能数据,不免被质疑吹嘘过度和测试标准偏颇。
首超人类专家,多维领先GPT-4
作为筹备一年之久的GPT-4强力竞品,Gemini 1.0是目前谷歌能拿出手的功能最为强悍、适配最为灵活的大模型,分别包括Gemini Ultra、Gemini Pro和Gemini Nano三种不同套件。其中Ultra是谷歌最大、最强模型,适用于高度复杂的任务;Pro能力稍弱,是一个可扩展至多任务的模型;Nano则是一款适用于端侧设备运行的模型。
不过,谷歌方面并没有透露Gemini Ultra和Gemini Pro的具体参数大小,只是明确称规模最小的Gemini Nano的参数分别为18亿(Nano-1)和32.5亿(Nano-2)。但有传言称,Gemini Ultra的参数规模达到万亿级别,训练动用的算力是GPT-4的5倍以上。
Gemini发布后,外界尤其关注其对GPT-4的挑战。谷歌DeepMind产品副总裁伊莱·柯林斯(Eli Collins)表示,团队一直在对Gemini进行严格的测试并评估其在各种任务中的性能。从自然图像、音频和视频理解到数学推理,在被大型语言模型(LLM)研究和开发中广泛使用的32项学术基准中,Gemini Ultra的性能有30项都超过了目前最先进的水平。
据MMLU(大规模多任务语言理解数据集)的测试结果,Gemini Ultra的得分率为90%,这款MMLU数据集包含数学、物理、历史、法律、医学和伦理等57个科目,专门用于测试大模型的知识储备和解决问题能力。作为对比,人类专家的得分率为89.8%,GPT4得分率为86.4%。这说明Gemini Ultra是第一个在MMLU测试中超过人类专家的模型。
在多模态方面,Gemini Ultra在权威MMMU基准测试中也获得了59.4%的SOTA分数,高于GPT-4V的56.8%。这项基准测试是由跨不同领域的多模式任务组成,需要大模型进行深思熟虑的推理过程,而谷歌Gemini大模型多模态背后的技术原理也引发业界关注。对此,谷歌DeepMind首席科学家杰夫·迪恩(Jeff Dean)团队撰写了60页技术报告来阐述。
以往,多模态大模型是将纯文本、纯视觉和纯音频模型拼接在一起,例如OpenAI的GPT-4、DALL·E和Whisper等,但这并不是最优解。据戴密斯·哈萨比斯透露,Deepmind团队将Gemini设计为原生多模态,从一开始就在不同模态上进行预训练。然后,利用额外的多模态数据对其进行微调,以进一步提高其有效性。这有助于Gemini从最初阶段就能对输入的各种内容顺畅地进行理解和推理,并优于现有的多模态模型。
谷歌方面称,Gemini将通过其系列产品推向数十亿用户,其中谷歌聊天机器人Bard由Gemini Pro微调版本驱动,在170多个国家和地区提供英语服务并持续扩展,这是Bard自推出后的最大升级。而谷歌的Pixel 8 Pro将成为首款搭载Gemini Nano的智能手机,明年年初将推出Bard Advanced,提供Gemini Ultra模型的最佳性能。此外,值得注意的是,在Gemini亮相同时谷歌还推出了专为大模型设计的新一代TPU——Cloud TPU v5p。
“复仇者联盟”坐镇,竞争行业王座
一定程度上,谷歌发布Gemini多少让外界有些意外。在今年5月谷歌的开发者大会上,谷歌便高调对外宣布下一代大语言模型Gemini,按照原计划将在12月份对外正式发布。但近期传出谷歌将发布Gemini推迟至明年1月,谷歌方面给出的理由是“在某些非英语任务方面的表现不佳”,这曾引发了外界猜测谷歌在Gemini研发方面遇到了困难和挑战。
过去一年来,全世界的AI公司掀起“对标”GPT热潮,其中谷歌被视为当仁不让的最强大对手,但在与OpenAI的竞争中,回应却总步履蹒跚。或许是迫于外界预期压力以及加速追赶OpenAI,谷歌最终按原计划对外发布了Gemini。无论如何,Gemini的正式登场不仅形成了对OpenAI的有力反击,也意味着AI大模型浪潮进入到一个全新阶段。
从如今公布的Gemini参数和使用效果来看,谷歌的“AI家底”自然不菲。例如在官方技术报告中,谷歌提到是使用TPUv5e和TPUv4对Gemini进行大规模训练,旨在将其打造成可靠、可扩展的训练模型和最高效的服务模型。在TPU上,Gemini的运行速度明显快于其早期规模较小、能力较弱的模型,如被曝参数规模为3400亿的PaLM-2。而最新的TPU v5p一旦纳入运营,将进一步减少谷歌训练Gemini大模型相关的时间投入等。
此外,为了强化技术班底,谷歌曾在今年4月直接把谷歌大脑(Google Brain)和DeepMind合并在一起,其中Google Brain曾经缔造了Tensorflow与Transformer架构,DeepMind则曾凭借AlphaGo掀起上一轮AI热潮、创造了AlphaFold预测蛋白质折叠。由于此前在行业竞争中失利,这一团队也被外界调侃是“AI复仇者联盟”。而正是基于汇合两个顶尖实验室力量的紧密攻关,Gemini才得以在多项指标上实现了对GPT-4的绝地反击。
前不久,OpenAI经历了全球瞩目的戏剧性“董事会内乱”,其CEO山姆·阿尔特曼(Sam Altman)突遭董事会罢免,但最终迅速回归。此后,OpenAI的未来发展增添许多新的不确定性,包括推出的GPT高级版无限期暂停等,这也给了谷歌等公司更多追赶的时间和机会。
目前来看,虽然OpenAI占有先机,通过ChatGPT获得了大量训练数据反馈,但谷歌也依然有着自身的技术和生态优势。据外媒此前报道称,Gemini至少在一个重要方面比GPT-4强,即除了来自网络的公共信息之外,Gemini还利用了来自谷歌旗下产品的大量专有数据。因此,在理解用户特定查询的意图时更准确,而且错误答案(即幻觉)也似乎更少。
在Gemini正式亮相后,业界不乏对其肯定和追捧,其中英伟达AI科学家范麟熙(Jim Fan)表示,迟到总比不做好,OpenAI王座终于有了强力竞争者。但对于Gemini“效果惊人”,也有分析称,谷歌有些吹嘘过度以及测试标准有失偏颇等,包括即便是通过Gemini Ultra对比,但很多项也都仅是略高于GPT-4和GPT-4V等模型。不过,艾伦人工智能研究所前CEO奥伦·埃齐奥尼(Oren Etzioni)则称,“没有理由怀疑Gemini在这些基准上比GPT-4更好,但没准GPT-5会比Gemini做得更好。”
(校对/陈炳欣)
本文作者可以追加内容哦 !