近日,OpenAI 正式公开一系列全新 AI 大模型,旨在专门解决难题。在官宣 o1 发布的官方博文中,OpenAI 这样说道:「作为早期模型,它还不具备使 ChatGPT 有用的许多功能……但对于复杂的推理任务来说,这是一个重大进步,代表了AI 能力的新水平。鉴于此,我们将计数器重置回1并将此系列命名为 OpenAI o1。」
据 OpenAI 介绍,在解决问题的能力方面,o1 模型比以往任何模型都更接近人类思维,并且能够「推理」数学、编码和科学任务。目前 OpenAI 发布了 o1-preview(高级推理)和 o1-mini(更快的推理速度)两个版本,仅面向 ChatGPT Plus 和 Team(个人付费版与团队版),而且提问次数有限,每位用户每周仅能向 o1-preview 发送 30 条消息,向 o1-mini 发送 50 条消息。
基于此,多鲸依次选取小学奥数、阿里巴巴数学竞赛、LLM 模型的经典必考「海龟汤」等题目,轮番向大模型进行提问,以此检验大模型的推理能力。
题目——学而思四年级相遇问题 思维训练
一天,小张从甲镇出发去乙镇,同时小王从乙镇出发去甲镇,出发后 12 分钟在丙村相遇。
第二天,他们又同时从乙、甲两镇出发,按原速返回甲、乙两镇。他们相遇后 6 分钟,小张到达丙村。问:相遇后过多少分钟,小王到达乙镇?
Prompt 1:假设你是一位学习奥数竞赛的四年级小学生,请认真审题,根据你目前的知识水平和能力,完整解答这道奥数题。请注意:要提供完整的解答过程,清晰的格式。
Prompt2:根据你以上的答案,对自己的回答进行评分,假设满分 10 分。请根据最终答案准确度,过程完整度和答题规范程度进行评分,另外请你梳理本题的主要考点和对应知识点。
Chatgpt o1-preview 作答结果
生成时间:54 秒
解答过程:
自我评分:9 分
梳理考点和知识点:
Chatgpt o1-preview 生成的这道四年级数学奥数题答案,在解读和解答过程中展现了以下优势:
1、逻辑清晰
答案从设定变量开始,逐步建立数学模型,让整个解题过程变得有条不紊。
2、变量设定合理
通过设定甲镇到乙镇的总距离 D、丙村到甲镇和乙镇的距离 a 和 b、小张和小王的速度 v_张和 v_王等变量,让问题得以量化并解决。
3、结合实际情况:
答案中多次提到「第一天」和「第二天」的情境,并据此设定了不同的解题条件。
4、错误纠正与反思
值得注意的是,在解题过程中,ChatGPT 在生成答案过程中出现了计算错误,但随后即进行了纠正和反思。
5、语言表述清晰
答案中的语言表述清晰、准确,没有歧义和模糊之处。
鉴于目前 o1 还不具备看图能力,所以只能将纯文字题目发送过去:
紧接着它思考了五秒后,给出了可能的正确答案:
o1 模型的回答符合正确答案,正确答案如下:
上述两道数学竞赛题,大模型都可以在一分钟之内轻松解答。紧接着,我们给大模型测试 LLM 模型的经典必考:海龟汤问题。海龟汤是一种推理游戏,出题人给出简短、模糊的故事背景,由玩家自己主动提问。出题人只会回答「是」和「不是」,然后玩家根据出题人的回答,结合自己的推导,给出故事的真相。
故事背景如下:一名男人发现自己少贴了一张邮票,随后便去世了。请问发生了什么事?
我们向 o1-preview 提供五次提问的机会,然后让 o1-preview 尝试推理真相。o1-preview 每次只思考不到 10 秒,甚至都可以自问自答,提出的问题全部直击要害,真相呼之欲出。
当然,如果仅让 o1-preview 给出答案,它的回复也非常有意思,不仅考虑了推测和解析,答案也跟上一次完全不同,符合戏剧性的预期。
从Chtgpt o1 的解答中,我们看到AI链解析问题、构解题思路上的努力。一是,数学与逻辑能力强,速度还不慢。二是,能够通过模拟人类的思维过程,帮助模型逐步分解复杂问题。这也是OpenAI 在官方介绍中提到的思维链(CoT),与人类在回答难题之前会长时间思考类似,o1 在尝试解决问题时会使用思维链。比如在回答「海龟汤」问题的时候,会进行推测、预设、分析等。无论是解题思路或者是剧情还原,都有所体现。
o1还在数学、科学等领域展现巨大的潜力。在国际数学奥林匹克(IMO)资格考试中,GPT-4o 仅正确解答了 13% 的问题,而 o1 模型正确解答了 83% 的问题。虽然它现在还不具备 ChatGPT 的许多实用功能,例如浏览网页获取信息以及上传文件和图片。但对于复杂的推理任务来说,这是一个重大进步,代表了人工智能能力的新水平。
本文作者可以追加内容哦 !