报告共计:21页

全球多模态竞争白热化,大模型能力加速革新

OpenAI 深耕多模态领域,GPT-4V、DALL·E 3、Gobi 等引领市场。回 顾 OpenAI 沿革,OpenAI 成立于 2015 年,成立初期重点研究机器学习 和自然语言处理领域;2018 年 6 月,OpenAI 推出预训练模型 GPT-1, 虽已具备强大语言生成能力,但规模和效果还有待改进,模型参数由一 代的 1.5 亿增至 15 亿;2020 年 5 月,OpenAI 正式公布 GPT-3 的研究成 果,其参数高达 1750 亿,成为当时全球最大的预训练模型,直至 2022 年 4 月 GPT-4 问世,实现多模态发展,而且支持图像、文本输入输出, 并支持多国语言,回答准确性显著提高,2023 年 9 月,OpenAI 宣布推 出多模态模型 GPT-4V,新增了语音、图像交互功能,并即将向 ChatGPT Plus 和 Enterprise 用户推出。与此同时,文生图大模型 DALL·E 系列不 断升级换代,2021 年 1 月,OpenAI 推出 DALL·E 模型,时隔三个月后, 升级版 DALL-E2 出现,生成图像分辨率是 DALL·E 的四倍;2023 年 9 月 21 日,最新的 DALL·E3 版本官宣集成 ChatGPT,并将于 10 月 3 日 向 Bing 用户开放。OpenAI 另一类大模型为 2021 年 1 月发布的 CLIP, 类似于 GPT-2 和 GPT-3 的"zero-shot",能有效地从自然语言监督中学习 视觉概念,应用于任何视觉分类基准。此外,根据 The Information,OpenAI 应对模型竞赛不断加码,积极筹备专注于多模态大模型的 Gobi,进一步 实现多模态发展。多模态大模型技术壁垒更高、可拓展性更强,为 OpenAI 大模型的重点发展方向,亦为 AI 大模型厂商未来的争夺焦点,而 GPT4V 的发布进一步印证了 OpenAI 多模态领域的决心,大模型参数能力飙 升与多模态发展下,大模型能力有望迎来更快速的提升。

多模态推动应用层爆发,AIGC 产业迎来革命

生成式 AI 投资热潮席卷全球,大模型布局成熟垂直应用层发力。过去 5 年内生成式 AI 投资热潮席卷全球,Dealrooms 数据显示全球生成式 AI 投资总额超过 220 亿美元,其中美国融资总额达到 190 亿美元,89%的 融资流向美国初创公司,VC 向 OpenAI 投入了近 120 亿美元引爆生成式 AI 热潮。从投资趋势来看,目前模型制造商融资占生成式 AI 融资总额 的 63%,而应用程序、基础设施占比分别达到 21%、8%,以 OpenAI 为 首的模型厂商遥遥领先、部分垂直领域模型厂商亦获得了一定资金,而 应用层有众多初创公司陆续获得融资,包括基于专有模型的应用程序和 基于第三方模型的应用程序,应用领域覆盖文本、图像、视频、音频、 代码、3D 资产等等,随着大模型层加速发展下应用层投融资亦开始提速。 相似地,根据红杉资本,掌门人 Roelof Botha 表示过去 12 个月有 60%投 资流向了 AI 初创公司,其中更多聚焦于 AI 应用层投资,AI 应用层在日 趋成熟的模型能力和丰厚的投融资基础上加速发展,深入不同应用场景 的更多创新杀手级应用有望逐步崭露头角。

海量/完整电子版/报告下载方式:公众号《人工智能学派》

1.OpenAI多模态全面升级,构建全新交互体验

OpenAI 多模态能力升级,语音对话及困生文功能上线。9 月 21 日,OpenAI 宣布即将推出最新“文生图”模型Dall-E 3。相比于 DALL·E2,DALL·E 3 拥有更加出色的图像渲染能力以及更加细腻的理解能力,使用户能够轻松地将想法转化为准确的图像;同时,Dall-E 3 可集成在ChatGPT 中使用并简化“提示工程”,大幅度降低人机沟通门槛,原生实现多模态输出。9月25 日,OpenAI 宣布推出多模态模型 GPT-4V,并将在未来两周时间里向 ChatGPT Plus 和 Enterprise 用户开放新增的语音及图像交互功能。其中,语音功能将在移动端 iOS 和 Android 上提供,使用户可以与 ChatGPT 进行语音沟通,而图像功能将在所有平台上提供使用户能够通过上传图片表达需求并提问。

集合语音识别、转录及音频生成,实现高效语音双向对话。本次升级中, 更新后的语音功使用户能够与 ChatGPT 实现纯语音实时互动对话,并具 备以下特点:1)精准语音识别:语音对话功能集合了 Whisper 开源语音 识别系统,该系统已经接受了超过 680,000 小时的多语言、多任务监督 训练,对于不同口音、背景噪音、技术语言的识别具有优异的性能,提 高了语音交互准确性及效率,并为用户提供了多达 5 种不同的语音选项; 2)双向语音对话能力:输入端,基于 OpenAI 自研的开源语音识别模型 工具 Whisper,将语音转换为文本实现语音输入,输出端,同时通过基于 文本到语音(TTS)模型支持,将文字和样本语音生成模拟音频实现语 音输出;3)播客内容分享:OpenAi 通过与 Spotify 合作,可以将播客音 频在保留主持人音色的基础上翻译为其他语言,使播客内容能够被更广 泛的听众理解和共享。

支持多图像处理及聚焦分析,图生文应用场景再拓宽。本次更新后,图 生文功能全面升级并具备以下特点:1)支持多张图像处理:用户可以同 时将一张或多张相关图像上传至 ChatGPT,ChatGPT 能够同时理解和处 理多个图像的信息并综合分析;2)具备聚焦理解能力:用户可以画笔工 具圈出图中要点,帮助 ChatGPT 理解自身需求,获得更加精确的反馈; 3)多模态理解能力:基于 GPT-3.5 及 GPT-4 的多模态技术支持,ChatGPT 可以全面识别并综合分析图像中的文本及图案,包括照片、截图、文本 及图案等等,提供更具体的指导和建议,进而扩大其应用场景和实用性。 在 OpenAI 官方应用案例中,用户使用绘图工具圈选自行车的特定零件 后,ChatGPT 综合用户的多轮提问及图片列示了调低自行车座椅的详细 操作步骤,并且帮助用户在工具箱中挑选了合适的工具。

简化 Prompt 精准成像,创作全新交互体验。现阶段,不论是闭源的 Midjourney 还是开源的 Stable Diffusion,用户都需要向系统提交清晰且 完整的 Prompt 才能得到自己想要的图片。随着 DALL·E 3 融入 ChatGPT 后,ChatGPT 将成为文生图提示词工程师,通过自身多回合对话的能力 辅助用户通过自然语言表达自身需求并与 DALL·E 3 沟通,最终生成图 片,从而更加精准地控制 DALL·E 3 生成的图片效果。从实测效果来看, DALL·E 3 能够更加精准地理解用户要求,较 DALL·E 2、Midjourney、 SDXL 等均有更加的成像效果,同时还能够在图片中标注文字、完善故 事插画、生成贴纸等等,创造了全新的交互体验,有望推动内容产业链 的创作效率进一步提升。

内容审核机制持续优化,多项缓解措施压降内容风险。另一方面,根据 DALL·E 3 技术报告,在 ChatGPT 的审核系统 Prompt Transformations 检 测的基础上,DALL·E 3 图生文功能增加了多项缓解措施,以提升其安 全性及可靠性,降低生成式内容潜在风险。语音功能方面,新的语音技 术能够仅通过几秒钟的真实语音创造出逼真的合成声音,为不法分子合 成诈骗、诽谤、色情的虚假信息或盗用他人身份提供了可乘之机,因此 OpenAI 目前仅在“语音聊天”该特定场景中推出这项功能。图像功能方面, 侵犯知识产权以及伦理挑战仍是 AIGC 共同面临的重大挑战,因此 DALL·E 3 增加了敏感内容拒绝、提示输入分类器、屏蔽列表、提示改 写、图像输出分类器等,检查并组织违规内容生成。以图像输出分类器 为例,DALL·E 3 通过内置图像输出分类器对查询请求及输出内容进行 了限制,一旦分类器被激活,将在输出之前阻止生成:1)暴力、仇恨、 成人等内容的图像;2)偏见、歧视、丑化公众人物的图片; 3)文化偏 见的图像;4)虚假新闻、名人、公众人物图像;5)在世艺术家风格相 似的图像;6)化学、生物学、物理学等存在谬误图像。根据 OpenAI 报 告所示,DALL·E 3 能够把这种提示没有要求但生成、或是令人反 感的图像风险降低到了 0.7%,未来将进一步加强图像水印、研发标记等 领域,进一步确保版权内容及其他内容得以保护。

报告共计:21页


追加内容

本文作者可以追加内容哦 !