这可能是一条新路。更智能、更慢、更贵的草莓来了。_财富号

更智能、更慢、更贵的草莓来了。比拼技术广度和厚度的时代来了，人工智能需要走更加高级的自我学习的融合进化的道路了，这几乎是必然的大趋势。这当然大大有利于长期研发相关技术并有深厚技术积累的公司。如果说我对科大讯飞学习机中的有一项技术感兴趣或者感到很神奇，那么就是科大讯飞怎么做到的作文能够批改？这个里面蕴含的技术含量到底是什么？是不是有些不可思议的地方？它和现在草莓即将呈现的技术是否有一定的相关性呢？我们权且把它当作思考题。相信最新的前沿技术的融合发展很快就会给出答案了。

好了，最新的技术呈现马上来了，她就是openai公司的最新的阶段性成果草莓。

草莓究竟是啥？目前没有确切的结论，但是从我知道的消息梳理来看的话，这玩意，草莓可能是：

基于新范式Self-play RL所做的，在数学、代码能力上强到爆炸、且具备自主为用户执行浏览器/系统操作级别的新模型。

更智能、更慢、更贵。

我尽量用最简单朴素的语言，让大家都听得懂，解释一下，这个新的草莓，具体是个啥，以及，凭啥卖200刀/月。

首先，得说一下GPT-5出现的一些问题。

GPT-5，就我所知，训练的非常不顺利。

一个可以观察到的点是，以数据规模和模型规模为美的“大力出奇迹”的方式，边际收益开始递减，也不再是百试百灵了。

大语言模型的Scaling Law描述的是模型性能L 、模型参数量大小N 、训练数据大小D以及计算量C之间的关系。

随着计算量、模型参数和数据集大小的增加，模型的性能通常会显著提高，从而在语言理解和生成等任务上表现更好。

但是现在，计算量、参数大小、数据集大小，都遭遇了瓶颈，特别是闭源模型们，进步速度对比过去，齐刷刷的开始放缓，且开源模型跟闭源模型的能力逐渐开始缩小。

也就是说，再靠大力出奇迹，模型的能力已经快上不去了。

因为本质上，所有的大模型训练，几乎都是人类已有知识的极致利用，我们给出数据、给出人类反馈数据或者标注数据等等，你会发现，大模型不是通过自我探索去“发现”语言的规律，而是直接从我们给出的内容中提取有用的信息。

这就像是一个学生，一开始通过不断地背书确实能提高成绩，但到了一定程度后，已经没啥书可以背了了，而且成绩也到了上限，再怎么死记硬背也很难有大的进步了，这也是如今的困境。

一个是，现有的知识的量级，已经不够了。

另一个点是，所有的知识都是拿现成的直接背出来的，不是自己从0开始探索的，所以大模型在这个过程中，学到的全是相关性，而不是因果性。

相关性和因果性这两个词解释起来非常简单。

相关性：如果你发现每次你带伞，天都会下雨，这就是相关性。伞和下雨看起来是相关的，但实际上带伞并不会导致下雨。

因果性：下雨了你才带伞，这是因果性，因为下雨导致了你带伞。

所以这就是为啥，你让他做个复杂推理，要写明推理过程，中途推理逻辑经常乱七八糟，错的没边，就是这个原因。

它们就像是一个百科全书式的学霸，知道很多事实，但可能并不真正理解这些事实背后的原理以及真正的因果关系。

如果你问一个只会死记硬背的学生："为什么苹果会落到地上？"他可能会立刻回答："因为有重力。"

但如果你继续追问："那重力是什么？为什么会有重力？"他可能就无法给出深入的解释了。

现在的大模型跟这个现象没啥区别。它们可以告诉你地球是圆的，但可能也没办法真正解释为什么地球是圆的，或者地球的形状对我们的生活有什么影响。

它们学到的是"地球"和"圆"这两个词经常一起出现，有强相关性，而不是理解地球为什么会是圆的这种因果关系。

相关性告诉你两件事总是一起发生，因果性则告诉你为什么它们会一起发生。

所以，这也是为什么，我们需要新方法新范式，来破这个局。

而这个解法，是目前我观察下来，OpenAI、Google、Anthropic、Ilya等人的共识：

Self-play RL。

全称是自我对弈强化学习，听起来很复杂，但其实可以用一个简单的比喻来理解：一个孩子学习下围棋。

现在大模型的学习方式是什么样的？看棋谱，记住开局布置，背诵一些固定的战术。它们学习了大量的数据，知道很多可能的解法，但可能并不真正理解为什么要这样下棋。

而Self-play RL，它则是让这个孩子不停地和自己下棋。刚开始可能下得很拉跨，但是通过不断尝试不同的走法，观察每步棋的结果，慢慢地，他会发现哪些策略更有效，哪些走法会输。

这个过程中，孩子不仅仅是在记住棋谱，而是在真正理解棋局的变化，理解每一步棋为什么要这样走。

这就是从相关性学习到因果性学习的飞跃。

有没有感觉，这个描述很熟悉？

这就是2017年名动天下的 AlphaGo Zero 。

当年，AlphaGo在乌镇以3:0击碎柯洁道心，轰动世界。

而AlphaGo Zero，是AlphaGo的进阶版。

官方是这么描述AlphaGo Zero的：

“刚开始时，AlphaGo Zero很菜，还会填真眼自杀。

3小时后，AlphaGo Zero成功入门围棋。

36小时后，AlphaGo Zero就摸索出所有基本而且重要的围棋知识，以100:0的战绩，碾压了当年击败李世乭的AlphaGo v18版本。

21天后，AlphaGo Zero达到了Master的水平，这也就是年初在网上60连胜横扫围棋界的版本，Master后来击败了柯洁。

40天后，AlphaGo Zero对战Master的胜率达到90%，也就是说，AlphaGo Zero成为寂寞无敌的最强围棋AI。”

这就是 Self-play RL的恐怖威力。

Self-play RL就是让AI不断地和自己"对弈"，可能是下棋，也可能是解决数学问题，甚至是进行对话。

在这个过程中，AI不仅仅是在重复它看到过的内容，而是在主动探索、尝试和学习。

跟大模型的学习方式，形成了鲜明的对比，大模型是把“死记硬背”发挥到了极致，而 Self-play RL则是把“自我成长”发挥到了极致。

数据还是那个数据，只不过一个是人给的，一个是自己造的。

用人给的东西来死记硬背，你永远成为不了超越人的超级AI，但是自己造自己学习的，那是有很大的可能的。

围棋、Dota2，这两个领域，已经证明了这一点。

而大模型+ Self-play RL，就是不断的大模型自己跟自己博弈，得到反馈之后，优化模型权重，改一下自己的水平，然后接着战。

且得益于大模型自身的能力，所以在自我博弈过程中，可以不再是只给出最终结果反馈，这种奖励反馈，在提升AI推理能力上其实也有很大的局限。

因为不同于围棋、Dota2这种特定任务，大模型的能力实在是太太太泛化了。我们需要更多的因果关系，而不仅仅只是结果。

对于大模型而言，就可以使用“思维链”，把AI推理过程中每一步的思考过程都记下来。然后对每一步进行评分，让AI知道每个推理步骤的好坏。这种方法让AI不仅仅学习到如何给出正确答案，还能改进整个推理过程，从而知道，真正的因果。

甚至，不仅仅只是打分，得益于大模型的能力，还可以进行文字评价。这就很像你在做作业时，老师不仅给你打分，还会写下评语告诉你哪里做得好，哪里需要改进，你肯定只比知道一个得分结果来的更牛逼对吧。

而且每一次的学习，都是从推理过程中得到宝贵的反馈。

当模型在回答一个复杂问题时，它就会进行一个类似Self-play的过程。模型会生成多个可能的思路，然后评估这些思路的质量，选择最佳的一个。

在海外独角兽的文章中，曾经做过一个计算，一个百亿参数的大模型，如果用 Self-play的方式去生产思路，如果每次生产32个思路，每个思路里都有5个步骤，一次推理回答，总任务消耗是100K token，将近6美元。

又贵、又慢，但是真的智能。

最好的数据会被保存下来，以固定周期对模型进行迭代，以持续进化。

这也是为啥，在草莓的曝光中，说：

“ Strawberry 与其他模型的最大区别在于它能够在响应之前「思考」，不是立即回答查询，这个思考阶段通常持续 10 到 20 秒。 ”

且，我们在文章的一开始，看到ChatGPT Pro会员，是200美元一个月了吧。

推理成本，太特么高了。

这就是典型的，在大力出奇迹的方式边际效应递减的情况下，用推理成本，换训练成本，继续给模型做迭代。

这也是为什么，OpenAI一直说，草莓，是给下一代大模型，合成数据用的，因为，它就是 Self-play RL的载体。

所以回头看，草莓，可能是什么。

是基于新范式Self-play RL所做的，在数学、代码能力上强到爆炸、且具备自主为用户执行浏览器/系统操作级别的新模型。

更智能、更慢、更贵。

追加内容

本文作者可以追加内容哦 !

总收益	20日收益	日收益
--	--	--

代码	名称	最新价	涨跌幅
查看更多

最新操作
-	-	-