9月13日凌晨,OpenAI迎来更新,发布全新大模型OpenAI o1。新模型可完善自身思维过程、并尝试不同策略,能认识到自己的错误,性能类似于博士生在物理、化学、生物学中完成具挑战性的基准任务,并在相关基准上首次超过人类博士,相较于GPT 4o模型实现全面超越。这几天,关于o1模型的访谈、观点陆续披露,包括OpenAI CEO、技术团队、Kimi创始人访谈等。我们汇总整理了多方观点,供投资者参考。
Sam Altman OpenAI 创始人兼首席执行官 观点:
o1模型最新的突破在于系统能够长时间地处理复杂的科学或工程问题。
最新模型可以改变编程的本质:“o1 模型可能改变编程的本质,使程序员能够更高效地完成以往极为复杂的任务。”
因为“八小时工作制”很难实现,所以该让AI改变工作的本质:“社会总是在很多问题上有点困惑,比如我们永远搞不清是希望人们工作更多还是更少,每周只工作八小时的承诺从未真正实现 —— 我觉得以后可能也无法实现,所以,我认为不如改变工作的本质,让未来的工作更像是爱好、艺术或其他形式的自我表达。”
引用了PS刚诞生时的经验,呼吁互联网警惕AI生成内容:“我的希望是—这也是我们策略的一部分—世界能够像当初 Photoshop 刚出现时那样,迅速学习,即你不能再完全相信网上看到的内容,而是需要更加怀疑和谨慎。”
谈及算力需求:“我认为未来的两大基础性资源将是智能和能源。世界需要的能源远比我们现在拥有的多。智能可以创造思想,完成智力任务。能源能够让这些任务在现实世界中得以实现,包括运行人工智能本身。”
o1发布最重要的意义:“关于 AI 是否到达瓶颈以及进展是否会放缓的争论,其实已经持续了一段时间。我认为这次发布最重要的信息是,AI 发展不仅没有放缓,而且我们对未来几年已经胜券在握。”
OpenAI o1研发团队 观点:
o1模型是一个全新的系列,被定义为"推理模型”,这些系列的新特点: 1)注重思考结果:“推理模型”会在回答问题之前进行更多思考,采取了用思考时间转更好的结果的策略。2)自主思维链:团队使用强化学习(RL)训练模型生成和完善自己的思维链,而不仅仅依赖人类编写的思路链。3)自我反思:o1 能够质疑自己、反思错误,展现出更复杂的推理过程。
当团队在强化学习中投入更多计算资源来训练生成连贯的思维链时,特别是在训练模型生成连贯思维链方面,他们开始观察到一些令人兴奋的突破性进展。最初,这些模型只能产生简单的、类似人类的推理过程。但随着训练的深入,模型开始展现出超越人类手工编写思维链的能力。
这种进步在数学问题上表现得尤为明显。模型不仅能够解决复杂的数学问题,还能生成详细的、步骤清晰的解题过程。同时,这些模型开始表现出自我质疑和反思的能力。它们能够识别自己推理中的潜在错误,提出替代假设,并权衡不同解决方案的优劣。
这种自我反思的能力不仅提高了模型解决问题的准确性,还使其推理过程更加透明和可解释。研究人员可以更好地理解模型是如何得出结论的,这对于提高AI系统的可信度和安全性至关重要。也标志着AI正在向真正的"思考"迈进,而不仅仅是执行预编程的指令。
杨植麟 Kimi创始人 观点:
规模定律之后,大模型发展的下一个范式是强化学习。对于通用智能AGI来讲,可能会有三个层面:最底层是规模化定律,这是第一个层次的创新机会,它被OpenAI发现,并且做到极致。第二个层次的创新机会,就是Scaling law框架下有一些问题没有解决,比如怎么把所有的模态用统一的表示放到同一个模型里面去?这是第二个层次的挑战。第三层次的问题,比如能够去做更长的上下文,能够有更强的reasoning(推理)或者instruction-following(指令遵循)。
OpenAI o1模型的发布,通过强化学习尝试突破数据墙,并看到计算更多向推理侧增加的趋势。OpenAI发布o1,标志着从左边的范式迁移到右边范式,因为左边范式数据不够了。可以通过一直生成更多的题,然后自己做题,有的做对了,有的做错了,然后去学习哪些做对了,哪些做错了,就可以持续提升,这个本质上就是强化学习的过程。原来大部分Scaling发生在训练阶段,但是现在大部分的计算,或者说越来越多的计算会转移到推理阶段,因为现在要思考,所以思考的过程本身也是需要花算力的,本身也是可以被规模化的东西,就是能逐渐往推理侧+更多的算力发展。
决定这一代AI技术的上限,核心是文本模型能力的上限,如果文本模型能持续提升智商,就能做越来越复杂的任务。 AI产品的能力由模型能力的决定,这和互联网时代有本质不同,模型能力不强,产品体验就不会好。AI时代的超级应用,大概率会是一个AI助理。这一代AI最大的变量,还是在生产力端。现在社会里面每一单位的生产力可能都会有十倍提升的机会。
北京大学对齐与交互实验室 观点:
OpenAI o1在数学、代码、长程规划等问题取得显著的进步。一部分业内人士分析其原因是由于构建足够庞大的逻辑数据集 <问题,明确的正确答案> ,再加上类似 AlphaGo 中 MCTS 和 RL 的方法直接搜索,只要提供足够的计算量用于搜索,总可以搜到最后的正确路径。然而,这样只是建立起问题和答案之间的更好的联系,如何泛化到更复杂的问题场景,技术远不止这么简单。
早在去年,Deepmind 的 CEO Demis Hass 便强调用 Tree Search 来增强模型的推理能力。根据相关人士推测,o1 的模型训练数据截止到去年十月份,而有关Q *的爆料大约是去年11月,这似乎展示o1的训练中也用到了TreeSearch的技巧。
实际上,OpenAI o1 运用的技术关键还是在于强化学习的搜索与学习机制,基于LLM已有的推理能力,迭代式的Bootstrap模型产生合理推理过程(Rationales) 的能力,并将 Rationales 融入到训练过程内,让模型学会进行推理,而后再运用足够强大的计算量实现Post-Training阶段的Scaling。类似于 STaR的扩展版本。
注意这里合理推理过程并不只是对问题的拆解和分步作答,还有对于为什么如此作答的分析和思考。技术要点有三:
1)后训练扩展律Post-Training Scaling Laws已经出现,并且Post-Training Scaling Laws为上述技术路径的成功提供了有力支持。
2)模型学习的是产生合理推理的过程,MCTS 在其中的作用是诱导合理推理过程的产生或构建相应的偏序对形成细粒度奖励信号,而非直接搜索过程和最终答案。
3)模型的BootStrap有助于构建新的高质量数据,并且新的Rationales数据促进了模型进一步提升能力。
肖仰华 复旦大学计算机科学技术学院教授、博导 观点:
o1模型的出现意味着大模型的推理能力完全能够达到专家级水平,算得上是人工智能里程碑式的进展,将给模型在企业端的应用带来极大的提升。但随着模型在知性、感性和理性三方面的能力均不断提升后,其将超越人类的能力,未来人工智能将对人类产生何种影响还很难预测,人工智能的发展速度现在超过了人类对其认知的速度,人工智能治理将是一个巨大挑战。
大规模强化学习算法教会模型如何在训练过程中有效使用其思维链进行思考,o1模型可以在回应用户之前产生一个很长的内部思维链。以前的大语言模型更像一个文科生,距离理科生的水平仍然较远。但人类智能的核心能力是思考和思维,OpenAI新推理模型o1系列将人的思维过程展现出来。
我们发现o1的表现超过了一些人类专家,成为第一个在这个基准上做到这一点的模型。这些结果并不意味着o1在所有方面都比博士更有能力,只是模型在解决博士需要解决的一些问题方面更熟练。人类目前对人工智能基本认知框架都有所欠缺,这是一个巨大的治理挑战,就业、经济、伦理、社会关系等话题将引起广泛讨论
周枫 网易有道CEO 观点:
思维链(CoT):本身是行业熟悉的成熟方法,来自2022年的"Large Language Models are Zero-Shot Reasoners"这篇文章,意思就是通过加入“让我们一步步思考”这样的提示,可以从大模型得到质量更好的数理推理结果。
系统1和系统2思维的区别:《思考,快与慢》的基本背景:人的思维可以分成两个模式,“系统1”是快速、本能和情感思维,“系统2”是缓慢、仔细和逻辑性的思维。在o1之前的大模型,总体上都是“系统1”思维为主。从系统的行为来说,就是得到一个问题后,就一边想一边说,想到哪里是哪里,并没有一个回答问题之前的深度思考过程。o1给出了一个另外的思路,就是在训练阶段和推理(inference)阶段都加入增强学习和思维链,通过反复计算,来加强模型的数理推理能力。和以前的模型相比,推理(inference)阶段的计算占比加大,对于数理问题,这应该是一个必要的变化。
o1的成本大幅提升:o1-preview100万的tokens价格是15美元,与之对比,OpenAI便宜的模型GPT-4o mini(和GPT-3.5差不多)的价格是0.15美元/百万tokens,也就是100倍的价格差距。另外,计价方法也有变化,OpenAI新增了“reasoning tokens”,就是在结果中不显示,但是推理过程中用到的tokens,这个也会计入价格中。
其它观点:
陶哲轩 华裔数学家:o1更强了,但是在处理最复杂的数学研究任务还不够好,就像指导一个水平一般但不算太研究生。进步的地方体现在:「我要求 GPT 回答一个措辞含糊的数学问题,只要从文献中找出一个合适的定理就能解决这个问题。之前,GPT 能够提到一些相关概念,但细节都是幻觉般的。而这一次,GPT 找到了 Cramer 定理,并给出了完全令人满意的答案。」
Jim Fan 英伟达高级研究科学家:这可能是自2022年原始Chinchilla缩放定律以来,大语言模型研究中最重要的进展。关键在于两个曲线的协同作用,而不是单一曲线。人们通过延伸训练缩放定律来预测大语言模型能力将陷入停滞,却未曾预见到推理缩放才是真正打破收益递减的关键。
Clement Delangue HuggingFace CEO:再一次,人工智能系统并不是在“思考”,而是在“处理”和“运行预测”——就像谷歌或电脑一样。
Ethan Mollick 沃顿商学院管理学教授:我已经用了1个月的“草莓”(OpenAI o1),它在许多方面都很惊人,但也有些限制。也许最重要的是,这是一个信号,表明了未来事情的发展方向。
Aravind Srinivas 搜索引擎Perplexit CEO:认为“草莓”所给出的答案是经由反复批判性反馈精心提炼的结果,而且认为单纯依赖大型语言模型来得出答案并不足够可靠。他建议,将代码执行融入其中,并结合从知识图谱中直接提取的事实,这一做法在实际应用中可能更为有效。
本文作者可以追加内容哦 !