这些新能力似乎预示了OpenAI的战略重心的变化——加大投入基础建设、增强其「开发者生态」,而不是直接在「AI应用领域」争夺终端用户。

与去年的盛大发布相比,OpenAI昨天的DevDay显得异常低调——没有展示重磅产品,而是对现有的AI工具和API套件,进行了渐进式的改进。

今年DevDay的展示重点,是增强开发人员的能力、以及展示社区故事。


分别用一句话为大家概括一下这五大更新:



  • Realtime API:让开发者可以构建近乎实时的“语音转语音”的体验,并可以选择使用 OpenAI 提供的六种声音。



  • 提示词缓存:类似于 Anthropic 几个月前推出的缓存功能,允许开发人员在 API 调用之间缓存常用上下文,从而降低成本并改善延迟。



  • 模型蒸馏:让开发人员可以使用较大的 AI 模型(例如 o1-preview 和 GPT-4o)来微调较小的模型(例如 GPT-4o mini)。



  • 视觉微调:使开发人员能够使用「图像」结合「文本」,来微调他们的 GPT-4o 应用程序,“看”的能力被极大强化。



  • 新广场玩法:提示词新的框架、用法等,以及结构化输出新的突破,这些让开发变得前所未有容易。

比起之前虚拟陪伴的语音对话,Realtime API能实现更贴近日常的实时交流——比如旅行规划、点餐、教育教学、电商购物等等,纯语音的实现又更近了一步。

带记录属性的各类AI硬件产品,未来的语音互动也很快将变得更加自然流畅

OpenAI 发布的 Realtime API,目前处于公开测试阶段。

这项新产品使开发人员能够创建低延迟、多模式体验,尤其是在语音转语音应用程序中。

这意味着开发人员可以开始将 ChatGPT 的「语音控件」添加到应用程序中。

为了说明该 API 的潜力,OpenAI 演示了Wanderlust的更新版本,Wanderlust 是去年会议上展示的一款「旅行计划」应用程序。

借助 Realtime API,用户可以直接与应用对话,以自然说话的方式规划行程。该系统甚至允许在说话过程中打断,模仿人类日常的停顿等场景。

虽然旅行计划只是一个例子,但实时 API 为各个行业的语音应用程序开辟了广泛的可能性。


从「客户服务」到「教育」和「辅助功能工具」,开发人员现在拥有强大的新资源来创造更直观、响应更迅速的人工智能驱动体验。

Godement 解释道:“每当我们设计产品时,我们基本上都会同时考虑初创公司和企业。 因此,在 alpha 阶段,我们有许多企业使用 API,以及新产品的新模型。”

Realtime API,本质上简化了构建「语音助手」和其他「对话式AI工具」的过程,从此以后,就完全无需将多个模型拼接在一起进行转录、推理和文本到语音的转换。

早期应用Realtime API的玩家,如营养和健身指导应用程序Healthify、语言学习平台Speak,已经将 Realtime API 集成到他们的产品中。

这些实现展示了API在医疗保健、教育等领域,创造更自然、更具吸引力的用户体验的潜力。

Realtime API 的定价虽然并不便宜(每分钟音频输入 0.06 美元、每分钟音频输出 0.24 美元),但对于希望创建基于语音开发应用程序的人员来说,仍然可以代表一个重要的价值主张。

2. 提示词缓存

为开发人员大幅节省预算


“提示词缓存”功能,旨在降低开发人员的成本和延迟。


该系统自动对模型最近处理的输入标记应用 50% 的折扣,这可能会为经常重复使用上下文的应用程序带来大量节省。

OpenAI平台产品负责人Olivier Godement表示:“我们一直高负荷运转。就在两年前,GPT-3 还大获成功。现在,我们已将成本降低了近 1000 倍。我试图举出一个在两年内将成本降低近 1000 倍的技术例子——但我找不到。”

成本的大幅降低为初创企业和大型企业探索新的应用提供了重大机遇,而这些应用以前由于费用原因无法实现。


来源:OpenAI

2024 OpenAI DevDay 上的定价表显示,AI 模型的使用成本大幅降低,与各种 GPT 模型中的非缓存令牌相比,缓存输入令牌可节省高达 50% 的成本。 新的 o1 模型更是反映了其先进的功能。


这也牵扯到结构化提示词,只有提示中的前缀完全匹配时,才有可能实现缓存命中。

要实现缓存优势,需要将静态内容(如说明和示例)放在提示的开头,并将可变内容(如用户特定信息)放在结尾。这也适用于图像和工具,它们在请求之间必须相同。

3. 模型蒸馏

让AI模型的训练更紧凑


也许整场DevDay最具变革性的变化,是引入了「模型蒸馏」。

这种集成的工作流程,允许开发人员使用o1-preview和GPT-4o等高级模型的输出来提高GPT-4o mini等更高效模型的性能。

日常训练中,完全可以使用较大的 AI 模型(例如 o1-preview 和 GPT-4o)来微调较小的模型(例如 GPT-4o mini)。

这种方法可以使小公司利用与先进模型类似的功能,而无需承担相同的计算成本。

它解决了人工智能行业长期存在的尖端、资源密集型系统与更易于访问但功能较弱的系统之间的差距。

以一家小型医疗技术初创公司为例,该公司正在为农村诊所开发一款人工智能诊断工具。

使用模型蒸馏,该公司可以训练一个紧凑型模型,该模型在标准笔记本电脑或平板电脑上运行,可以捕捉大型模型的大部分诊断能力。

这可以将复杂的人工智能能力带入资源受限的环境,从而有可能改善医疗服务不足地区的医疗保健结果。

4. 视觉微调:

视觉AI的新前沿


另一项重大更新是为 OpenAI 最新的大型语言模型GPT-4o引入视觉微调。

此功能允许开发人员使用图像和文本自定义模型的视觉理解能力。

此次更新的影响深远,可能会影响自动驾驶汽车、医学成像和视觉搜索功能等领域。

据 OpenAI 称,东南亚领先的食品配送和拼车公司Grab已经利用这项技术来改进其地图服务。

据报道,仅使用 100 个示例,Grab 就将车道计数准确率提高了 20%,限速标志定位准确率提高了 13%。

这个现实世界的应用程序,展示了视觉微调的可能性,可以使用小批量的视觉训练数据,显著增强各行各业的人工智能服务。

以“看”的形式,实现「纯视觉」的信息采集和输入,将极大延展未来的应用场景。

再结合「实时语音交互」,OpenAI在信息处理和交互的进展,为新一轮应用的爆发创造了可能。

能想到的场景:比如帮助视听残障人士,比如通过视觉识别紧急情况和危险,然后拨打求救电话等等

追加内容

本文作者可以追加内容哦 !