一文看懂2024谷歌I/O技术大会_财富号

AI不是零和游戏！

GPT-4o星光熠熠，Gemini并未哭泣。

OpenAI抢鲜发布GPT-4o的第二天，谷歌就在2024年I/O大会上满怀豪情地“反击”。

谷歌CEO桑达尔·皮查伊（Sundar Pichai）在长达110分钟的演讲中，一口气发布几十款Google和AI结合的新产品，对阵OpenAI。

这次发布的谷歌“全家桶”包括：

支持200万token长文本的Gemini 1.5 Flash；

“谷歌版Sora”技术Veo；

对标GPT-4o的Project Astra；

最强开源模型Gemma 2；

支持生成式搜索的AI Overviews；

第六代TPU等硬件。

谈到OpenAI竞争，皮查伊表示，谷歌全面进入Gemini时代，更不能被牵着鼻子走。他进一步强调，这并不是一个零和游戏。

但是，市场对这次发布会的反应，没有预想中热烈。截至发稿，谷歌母公司Alphabet（GOOG）股价仅上涨0.60%。

全新Gemini大模型产品矩阵

根据谷歌统计，这场110分钟演讲中，皮查伊提及AI的次数高达“121次”。

“我们完全处于Gemini时代。”大会开场，谷歌CEO皮查伊一语双关。如果说历次I/O大会频率最高的词是AI，今年毫无意外地变成了Gemini。

随着演讲开始，谷歌首先发布Gemini 1.5 Pro。

Gemini Advanced上线三个月之后，注册用户已超过100万；新版Gemini 1.5 Pro面向全球用户正式推送，最高支持一百万Token上下文识别（通行计算方法中约等于 50万中文字符）。

Gemini 1.5 Pro最大支持上下文窗口从100万Tokens升级到200万，并且能同时支持35种语言。而且升级后的Gemini，不仅能分析比以前更长的文档、代码库、视频和音频录音，还能处理更加复杂和细微的指示，比如指定产品级行为的指示，如角色、格式和风格等。

接下来，为了满足用户对低延迟和低成本的需求，谷歌重磅发布轻量化模型Gemini 1.5 Flash。

谷歌对外解释，Gemini 1.5 Flash专为大规模服务设计，成本低至0.35美元/百万Tokens。它拥有更高的效率、更低的时延，不仅支持100万和200万Tokens两个版本，还适用于摘要、聊天应用、图像和视频字幕、长文档和表格数据提取等任务。

“它的上下文token数将会达到2000K，”皮查伊指出，相比之下，GPT-4 Turbo只有128K，Claude 3也只有200K。这意味着Gemini 1.5 Flash可以输入2小时视频、22小时音频、超过6万行代码或者140多万单词。

谷歌的Josh Woodward 详细介绍了 Gemini 1.5 Pro 和 Flash 的定价。

Gemini 1.5 Flash 的价格定为每 100 万个token 35 美分，这比 GPT-4o 的每 100 万个token 5 美元的价格要便宜得多。

除了Gemini模型自身性能之外，本次发布会还展示了Gemini的应用整合体验。

皮查伊演示了名叫Ask Photos的功能：当你停车并给车拍照后，Gemini可以帮你自动识别照片，提示你车停在了哪里。

基于Gemini模型，Google的办公套件也迎来全面整合。

用户可以直接在Gmail中生成线上会议纪要，或者让AI助手在邮件中总结关键信息。

办公应用还能与 Google 表格联动，自动整理邮件中的表格文件，并整合成数据、分析表格等。

开源模型Gemma 2登场

本次I/O大会，谷歌还剧透了最新版Gemma 2。

Gemma开源模型于今年2月问世，新版Gemma 2采用全新架构，参数达到27B，拥有突破性的性能和效率。

由于Gemma 2具有270亿个参数，其性能可与Llama 3 70B相媲美，但尺寸却只有Llama 3 70B 的一半。

谷歌表示，Gemma 2是一款轻量级、前沿的开放式模型，继承了 Gemini 模型的研究和技术精髓。颇有悬念的是，Gemma 2模型将在未来几周正式上线和发布。

目前，外部开发人员已能够使用预训练的Gemma变体PaliGemma。

资料显示，PaliGemma是谷歌受PaLI-3启发的第一个视觉语言模型，针对图像字幕、视觉问答和其他图像标记任务进行了优化。

比较有利于用户受益，Gemma 2 的高效设计使其所需的计算量少于同类模型的一半。27B 模型经过优化，可以在NVIDIA的GPU上运行，也可以在 Vertex AI 的单个TPU主机上高效运行，更易于部署且更具成本效益。

多模态生成式AI产品，对阵OpenAI

谷歌对阵OpenAI的努力，可见一斑。

除了对大模型领域的探索，DeepMind负责人哈萨比斯重点介绍了谷歌在多模态领域的新进展。

他表示，未来谷歌将在图像、音频以及视频三个主要内容领域全方位出击；同时推出五款基于Gemini大模型的生成式AI产品。

首先出场的是Project Astra智能助手。它与NotebookLM结合，将成为GPT-4o的有力竞争对手。

谷歌在演讲中，展示了一个人拿着手机在办公室走动，将摄像头对准各个方位，并用语言与其沟通。与此同时，Project Astra成功地识别出了各种物体、地点和代码，还能实时进行语音互动。

研发人员称， Project Astra可以通过连续编码视频帧、将视频和语音输入组合到时间线中，并缓存这些信息以进行有效回忆，从而更快地处理信息。

更有意思的是，智能手机上的Project Astra，可以通过摄像头识别周围环境，并与用户进行对话。

接下来，是谷歌的实验性产品NotebookLM。

基于全新的Gemini 1.5 Pro模型，NotebookLM再度升级，实装了语音助手功能，能够分析材料并回答问题。

Project Astra智能助手和NotebookLM的功能结合，可以直接对标OpenAI昨日发布的GPT-4o模型，成为能与用户实时对话的强大“AI 助手”。

最后，谷歌推出两款AI媒体创作模型：Veo和 Imagen 3，以及面向专业音乐创作者的音乐合成工具Music AI Sandbox。

这两款产品分别能对阵Sora的文生视频功能，和Dall-E的文生图技术。

谷歌Veo能通过文字描述，生成各种电影和视觉风格视频，可以理解“延时拍摄”或“风景空中拍摄”等指令，生成视频逼真而流畅，时间可以超过一分钟。

Imagen 3则是Google目前最高质量的文本到图像模型，可以产生更加逼真的视觉图像。

第六代 TPU芯片

除了AI新技术发布，谷歌还公布了TPU驱动软件的硬件引擎升级。

发布迄今为止最强大、最节能的张量处理单元Trillium TPU（第六代）。

据谷歌介绍，第六代硬件将为生成式人工智能模型和工作负载提供支持，提供比现有TPU显著增强的计算、内存和网络功能。

Trillium GPU的高带宽内存容量和带宽是原来的两倍，计算能力相比前代提升4.7倍，将在 2024年底面向用户（包括云客户）推出。

谷歌称，AI功能更新将作为Android今年的重点。除了APP之外，还将把Gemini进一步整合进入操作系统中。如：开发Gemini Live，实现流畅的对话功能来高效沟通；今年内发布基于Project Astra的摄像视频识别功能等。

Android 15中的Gemini能够支持YouTube视频内容识别。

用户可以在视频播放界面，通过Gemini直接提取视频相关信息、生成视频内容摘要等。

皮查伊透露，短短3个月内有100万+ Gemini Advanced 注册；有20亿用户产品（user products）全部使用 Gemini；超过150万开发者使用 Gemini。

参考资料

谷歌 I/O 2024大会；

谷歌 I/O 2024大会简报：谷歌强势回归，可惜被OpenAI抢了头条，AI寒武纪；

谷歌发布了第六代TPU芯片，半导体行业观察。

部分图片来源网络若涉及侵权请联系删除

撰稿 | 范美琪

责编 | 大方

排版 | 萝拉

校对 | 柚子

追加内容

本文作者可以追加内容哦 !

总收益	20日收益	日收益
--	--	--

代码	名称	最新价	涨跌幅
查看更多

最新操作
-	-	-