OpenAI 全新 o1 模型实战奥数、推理题：AI 水平又上新高度_财富号

近日，OpenAI 正式公开一系列全新 AI 大模型，旨在专门解决难题。在官宣 o1 发布的官方博文中，OpenAI 这样说道：「作为早期模型，它还不具备使 ChatGPT 有用的许多功能……但对于复杂的推理任务来说，这是一个重大进步，代表了AI 能力的新水平。鉴于此，我们将计数器重置回1并将此系列命名为 OpenAI o1。」

据 OpenAI 介绍，在解决问题的能力方面，o1 模型比以往任何模型都更接近人类思维，并且能够「推理」数学、编码和科学任务。目前 OpenAI 发布了 o1-preview（高级推理）和 o1-mini（更快的推理速度）两个版本，仅面向 ChatGPT Plus 和 Team（个人付费版与团队版），而且提问次数有限，每位用户每周仅能向 o1-preview 发送 30 条消息，向 o1-mini 发送 50 条消息。

基于此，多鲸依次选取小学奥数、阿里巴巴数学竞赛、LLM 模型的经典必考「海龟汤」等题目，轮番向大模型进行提问，以此检验大模型的推理能力。

题目——学而思四年级相遇问题思维训练

一天，小张从甲镇出发去乙镇，同时小王从乙镇出发去甲镇，出发后 12 分钟在丙村相遇。

第二天，他们又同时从乙、甲两镇出发，按原速返回甲、乙两镇。他们相遇后 6 分钟，小张到达丙村。问：相遇后过多少分钟，小王到达乙镇？

Prompt 1：假设你是一位学习奥数竞赛的四年级小学生，请认真审题，根据你目前的知识水平和能力，完整解答这道奥数题。请注意：要提供完整的解答过程，清晰的格式。

Prompt2：根据你以上的答案，对自己的回答进行评分，假设满分 10 分。请根据最终答案准确度，过程完整度和答题规范程度进行评分，另外请你梳理本题的主要考点和对应知识点。

Chatgpt o1-preview 作答结果

生成时间：54 秒

解答过程：

自我评分：9 分

梳理考点和知识点：

Chatgpt o1-preview 生成的这道四年级数学奥数题答案，在解读和解答过程中展现了以下优势：

1、逻辑清晰

答案从设定变量开始，逐步建立数学模型，让整个解题过程变得有条不紊。

2、变量设定合理

通过设定甲镇到乙镇的总距离 D、丙村到甲镇和乙镇的距离 a 和 b、小张和小王的速度 v_张和 v_王等变量，让问题得以量化并解决。

3、结合实际情况：

答案中多次提到「第一天」和「第二天」的情境，并据此设定了不同的解题条件。

4、错误纠正与反思

值得注意的是，在解题过程中，ChatGPT 在生成答案过程中出现了计算错误，但随后即进行了纠正和反思。

5、语言表述清晰

答案中的语言表述清晰、准确，没有歧义和模糊之处。

鉴于目前 o1 还不具备看图能力，所以只能将纯文字题目发送过去：

紧接着它思考了五秒后，给出了可能的正确答案：

o1 模型的回答符合正确答案，正确答案如下：

上述两道数学竞赛题，大模型都可以在一分钟之内轻松解答。紧接着，我们给大模型测试 LLM 模型的经典必考：海龟汤问题。海龟汤是一种推理游戏，出题人给出简短、模糊的故事背景，由玩家自己主动提问。出题人只会回答「是」和「不是」，然后玩家根据出题人的回答，结合自己的推导，给出故事的真相。

故事背景如下：一名男人发现自己少贴了一张邮票，随后便去世了。请问发生了什么事？

我们向 o1-preview 提供五次提问的机会，然后让 o1-preview 尝试推理真相。o1-preview 每次只思考不到 10 秒，甚至都可以自问自答，提出的问题全部直击要害，真相呼之欲出。

当然，如果仅让 o1-preview 给出答案，它的回复也非常有意思，不仅考虑了推测和解析，答案也跟上一次完全不同，符合戏剧性的预期。

从Chtgpt o1 的解答中，我们看到AI链解析问题、构解题思路上的努力。一是，数学与逻辑能力强，速度还不慢。二是，能够通过模拟人类的思维过程，帮助模型逐步分解复杂问题。这也是OpenAI 在官方介绍中提到的思维链（CoT），与人类在回答难题之前会长时间思考类似，o1 在尝试解决问题时会使用思维链。比如在回答「海龟汤」问题的时候，会进行推测、预设、分析等。无论是解题思路或者是剧情还原，都有所体现。

o1还在数学、科学等领域展现巨大的潜力。在国际数学奥林匹克（IMO）资格考试中，GPT-4o 仅正确解答了 13% 的问题，而 o1 模型正确解答了 83% 的问题。虽然它现在还不具备 ChatGPT 的许多实用功能，例如浏览网页获取信息以及上传文件和图片。但对于复杂的推理任务来说，这是一个重大进步，代表了人工智能能力的新水平。

追加内容

本文作者可以追加内容哦 !

总收益	20日收益	日收益
--	--	--

代码	名称	最新价	涨跌幅
查看更多

最新操作
-	-	-