AIGC专题报告：OpenAI引领多模态升级，AIGC产业迎新革命（附下载）_财富号

报告共计：21页

全球多模态竞争白热化，大模型能力加速革新

OpenAI 深耕多模态领域，GPT-4V、DALL·E 3、Gobi 等引领市场。回顾 OpenAI 沿革，OpenAI 成立于 2015 年，成立初期重点研究机器学习和自然语言处理领域；2018 年 6 月，OpenAI 推出预训练模型 GPT-1，虽已具备强大语言生成能力，但规模和效果还有待改进，模型参数由一代的 1.5 亿增至 15 亿；2020 年 5 月，OpenAI 正式公布 GPT-3 的研究成果，其参数高达 1750 亿，成为当时全球最大的预训练模型，直至 2022 年 4 月 GPT-4 问世，实现多模态发展，而且支持图像、文本输入输出，并支持多国语言，回答准确性显著提高，2023 年 9 月，OpenAI 宣布推出多模态模型 GPT-4V，新增了语音、图像交互功能，并即将向 ChatGPT Plus 和 Enterprise 用户推出。与此同时，文生图大模型 DALL·E 系列不断升级换代，2021 年 1 月，OpenAI 推出 DALL·E 模型，时隔三个月后，升级版 DALL-E2 出现，生成图像分辨率是 DALL·E 的四倍；2023 年 9 月 21 日，最新的 DALL·E3 版本官宣集成 ChatGPT，并将于 10 月 3 日向 Bing 用户开放。OpenAI 另一类大模型为 2021 年 1 月发布的 CLIP，类似于 GPT-2 和 GPT-3 的"zero-shot"，能有效地从自然语言监督中学习视觉概念，应用于任何视觉分类基准。此外，根据 The Information，OpenAI 应对模型竞赛不断加码，积极筹备专注于多模态大模型的 Gobi，进一步实现多模态发展。多模态大模型技术壁垒更高、可拓展性更强，为 OpenAI 大模型的重点发展方向，亦为 AI 大模型厂商未来的争夺焦点，而 GPT4V 的发布进一步印证了 OpenAI 多模态领域的决心，大模型参数能力飙升与多模态发展下，大模型能力有望迎来更快速的提升。

多模态推动应用层爆发，AIGC 产业迎来革命

生成式 AI 投资热潮席卷全球，大模型布局成熟垂直应用层发力。过去 5 年内生成式 AI 投资热潮席卷全球，Dealrooms 数据显示全球生成式 AI 投资总额超过 220 亿美元，其中美国融资总额达到 190 亿美元，89%的融资流向美国初创公司，VC 向 OpenAI 投入了近 120 亿美元引爆生成式 AI 热潮。从投资趋势来看，目前模型制造商融资占生成式 AI 融资总额的 63%，而应用程序、基础设施占比分别达到 21%、8%，以 OpenAI 为首的模型厂商遥遥领先、部分垂直领域模型厂商亦获得了一定资金，而应用层有众多初创公司陆续获得融资，包括基于专有模型的应用程序和基于第三方模型的应用程序，应用领域覆盖文本、图像、视频、音频、代码、3D 资产等等，随着大模型层加速发展下应用层投融资亦开始提速。相似地，根据红杉资本，掌门人 Roelof Botha 表示过去 12 个月有 60%投资流向了 AI 初创公司，其中更多聚焦于 AI 应用层投资，AI 应用层在日趋成熟的模型能力和丰厚的投融资基础上加速发展，深入不同应用场景的更多创新杀手级应用有望逐步崭露头角。

海量/完整电子版/报告下载方式：公众号《人工智能学派》

1.OpenAI多模态全面升级，构建全新交互体验

OpenAI 多模态能力升级，语音对话及困生文功能上线。9 月 21 日，OpenAI 宣布即将推出最新“文生图”模型Dall-E 3。相比于 DALL·E2，DALL·E 3 拥有更加出色的图像渲染能力以及更加细腻的理解能力，使用户能够轻松地将想法转化为准确的图像;同时，Dall-E 3 可集成在ChatGPT 中使用并简化“提示工程”，大幅度降低人机沟通门槛，原生实现多模态输出。9月25 日，OpenAI 宣布推出多模态模型 GPT-4V，并将在未来两周时间里向 ChatGPT Plus 和 Enterprise 用户开放新增的语音及图像交互功能。其中，语音功能将在移动端 iOS 和 Android 上提供，使用户可以与 ChatGPT 进行语音沟通，而图像功能将在所有平台上提供使用户能够通过上传图片表达需求并提问。

集合语音识别、转录及音频生成，实现高效语音双向对话。本次升级中，更新后的语音功使用户能够与 ChatGPT 实现纯语音实时互动对话，并具备以下特点：1）精准语音识别：语音对话功能集合了 Whisper 开源语音识别系统，该系统已经接受了超过 680,000 小时的多语言、多任务监督训练，对于不同口音、背景噪音、技术语言的识别具有优异的性能，提高了语音交互准确性及效率，并为用户提供了多达 5 种不同的语音选项； 2）双向语音对话能力：输入端，基于 OpenAI 自研的开源语音识别模型工具 Whisper，将语音转换为文本实现语音输入，输出端，同时通过基于文本到语音（TTS）模型支持，将文字和样本语音生成模拟音频实现语音输出；3）播客内容分享：OpenAi 通过与 Spotify 合作，可以将播客音频在保留主持人音色的基础上翻译为其他语言，使播客内容能够被更广泛的听众理解和共享。

支持多图像处理及聚焦分析，图生文应用场景再拓宽。本次更新后，图生文功能全面升级并具备以下特点：1）支持多张图像处理：用户可以同时将一张或多张相关图像上传至 ChatGPT，ChatGPT 能够同时理解和处理多个图像的信息并综合分析；2）具备聚焦理解能力：用户可以画笔工具圈出图中要点，帮助 ChatGPT 理解自身需求，获得更加精确的反馈； 3）多模态理解能力：基于 GPT-3.5 及 GPT-4 的多模态技术支持，ChatGPT 可以全面识别并综合分析图像中的文本及图案，包括照片、截图、文本及图案等等，提供更具体的指导和建议，进而扩大其应用场景和实用性。在 OpenAI 官方应用案例中，用户使用绘图工具圈选自行车的特定零件后，ChatGPT 综合用户的多轮提问及图片列示了调低自行车座椅的详细操作步骤，并且帮助用户在工具箱中挑选了合适的工具。

简化 Prompt 精准成像，创作全新交互体验。现阶段，不论是闭源的 Midjourney 还是开源的 Stable Diffusion，用户都需要向系统提交清晰且完整的 Prompt 才能得到自己想要的图片。随着 DALL·E 3 融入 ChatGPT 后，ChatGPT 将成为文生图提示词工程师，通过自身多回合对话的能力辅助用户通过自然语言表达自身需求并与 DALL·E 3 沟通，最终生成图片，从而更加精准地控制 DALL·E 3 生成的图片效果。从实测效果来看， DALL·E 3 能够更加精准地理解用户要求，较 DALL·E 2、Midjourney、 SDXL 等均有更加的成像效果，同时还能够在图片中标注文字、完善故事插画、生成贴纸等等，创造了全新的交互体验，有望推动内容产业链的创作效率进一步提升。

内容审核机制持续优化，多项缓解措施压降内容风险。另一方面，根据 DALL·E 3 技术报告，在 ChatGPT 的审核系统 Prompt Transformations 检测的基础上，DALL·E 3 图生文功能增加了多项缓解措施，以提升其安全性及可靠性，降低生成式内容潜在风险。语音功能方面，新的语音技术能够仅通过几秒钟的真实语音创造出逼真的合成声音，为不法分子合成诈骗、诽谤、色情的虚假信息或盗用他人身份提供了可乘之机，因此 OpenAI 目前仅在“语音聊天”该特定场景中推出这项功能。图像功能方面，侵犯知识产权以及伦理挑战仍是 AIGC 共同面临的重大挑战，因此 DALL·E 3 增加了敏感内容拒绝、提示输入分类器、屏蔽列表、提示改写、图像输出分类器等，检查并组织违规内容生成。以图像输出分类器为例，DALL·E 3 通过内置图像输出分类器对查询请求及输出内容进行了限制，一旦分类器被激活，将在输出之前阻止生成：1）暴力、仇恨、成人等内容的图像；2）偏见、歧视、丑化公众人物的图片； 3）文化偏见的图像；4）虚假新闻、名人、公众人物图像；5）在世艺术家风格相似的图像；6）化学、生物学、物理学等存在谬误图像。根据 OpenAI 报告所示，DALL·E 3 能够把这种提示没有要求但生成、或是令人反感的图像风险降低到了 0.7%，未来将进一步加强图像水印、研发标记等领域，进一步确保版权内容及其他内容得以保护。

报告共计：21页

追加内容

本文作者可以追加内容哦 !

总收益	20日收益	日收益
--	--	--

代码	名称	最新价	涨跌幅
查看更多

最新操作
-	-	-