$中科曙光(SH603019)$ $景嘉微$  科技争霸赛停不下来。周五,OpenAI发布了下一代的推理模型o3,这是今年早些时候发布的o1推理模型的升级版本。更准确地说,o3是一个模型系列——就像o1一样,同时有o3和o3-mini两个版本,后者是一款更小的精简版模型,针对特定任务进行了微调。


OpenAI声称,至少在某些条件下,o3模型可以接近实现AGI。


AGI是“通用人工智能”(artificial general intelligence)的缩写,泛指能完成人类所能完成的任何任务的人工智能。OpenAI对此有着自己的定义:“在最具经济价值的工作上胜过人类的高度自主系统”。


实现AGI将是一个大胆的宣言。对于OpenAI来说,其背后也将具有现实意义。根据OpenAI与其亲密合作伙伴和投资方微软的协议条款,一旦OpenAI达到AGI,就没有义务再让微软使用其最先进的技术(即那些符合OpenAI AGI定义的技术)。


OpenAI首席执行官山姆·奥尔特曼(Sam Altman)介绍称,OpenAI计划在1月底前正式推出o3 mini,之后推出完整版的o3。该公司期待更强大的大型语言模型可以超越现有模型,吸引新的投资和用户。

o3有多强大?


那么,o3具体的表现究竟能有多强大呢?


根据OpenAI的介绍,o3模型在ARC-AGI基准上获得了破纪录的分数。ARC-AGI由Keras之父Fran ois Chollet开发,主要是通过图形逻辑推理来测试模型的推理能力。以100%为最高分的ARC-AGI评估结果显示,在低计算场景中,o3得分为75.7%,而在高计算测试中,它达到了87.5%。



这标志着,o3的最佳成绩超过了标志着达到人类水平的门槛85%。作为对比,目前开放的o1模型的得分仅在25%到32%之间。o3的表现几乎是o1的逾三倍。


在其他基准测试中,o3也明显脱颖而出。


在衡量编程能力的Codeforces Elo评分中,o3取得了2727的Elo评分,而o1评分仅为1891。事实上,o3 mini在中等推理时间模式的表现也已足以超越o1。

追加内容

本文作者可以追加内容哦 !