过节期间,各路人士对美联储降多少BP的分析没有引起我的兴趣,但OpenAI默默上线了新模型,本来没多少期待的我,又惊喜到了。

着急看结论的朋友,去文末看“总结”。但正文有两段重点,建议大家看看,可以对整个事情有更感性的理解。

—— 正文,开始 ——

新模型o1-preview,我已经帮大家测过了。

结论就是:(!!!重点!!!)

这一轮制约大模型应用的最大短板——逻辑推理能力,即将被OpenAI补完。

来看我找的一道数学证明题。

只用1次输入,o1模型自动完成思考过程,直接给出推理结果。

换成以前GPT-4o这些模型,需要手动输入思维链,先把问题拆解成很多小问题,一步一步的喂给模型,然后得出答案。

并且这个答案还可能是错的。

但现在,思维链已经可以有o1模型自动完成了,中间不需要用户手动提示。


如果觉得我这题还不够有说服力,可以看看网友的测试,最新的2024高考数学卷,o1模型考了满分。

证明题没做,是因为目前o1只具备推理+文字输入输出的能力,还不具备4o这种能输入、输出图片的多模态能力。


之所以o1能达成这样的效果,是因为模型有快和慢两套系统

以前的模型只有“快系统”,

你输入提示词,

模型思考(计算)一次,

给出结果,结束。

所以,如果你想提高模型输出结果的效果,要把复杂的问题手动拆成简单的问题。


现在o1的“慢系统”,代替了你手动输入思维链的工作。

这意味着,o1不再是你输入一次,它计算一次,给出结果的工作流程。

而是,

你输入一次,

它用“快系统”计算一次,

再用“慢系统”计算N次(取决于需要多少步思维链,即模型的思考过程变长了),

然后给出结果,结束。

代替手动输入的好处是,对于大部分用户来说,想把一个问题拆成N个准确表达的小问题,并且问题之间还存在逻辑关系,是很高的门槛,也是提示词工程一直有效的原因。

现在“慢系统”把这个门槛降低了,并且自动化了。


代价就是:

1、思考需要时间,所以o1需要先考虑个几十秒到一两分钟,再给出结果。

但这并不是缺点,思考越充分,对解决复杂问题的帮助越大。

OpenAI的下一目标是延长模型的思考时间,让模型有解决更加复杂问题的能力。


2、对算力消耗巨大,因为思考步骤多。

新模型有两个版本,

一个是知识更全面参数量更大的o1-preview,9月12号上线时候,1周只能对话30次,昨天加了一点,1周能对话50次。

另一个是知识没那么全面参数量相对小一些,但是更便宜的o1-mini,刚上线的时候1周只能对话50次,昨天加到1天可以对话50次。

而4o的plus用户,可以每3小时对话80次。

意思是,OpenAI目前的算力,完全不够这两个模型畅聊的,新模型的算力成本至少是指数级的提升。

仿佛一夜回到两年前,ChatGPT刚发布的时候,每次对话都要精打细算,一不小心就超标了。


新模型o1如何让堆算力继续生效:(!!!重点!!!)

大模型学会的所有能力,都来自于它的训练数据,数据里没有的东西,是它无论如何都学不会的。

之前硅谷那边有消息说,目前在模型训练阶段堆算力scaling law的效果在下降。

因为高质量的数据不够了,网上能爬取的基本都被训练完了。

所以,继续堆算力,模型的能力提升幅度也依然在下降。


这里面有两个可以打破僵局的因素:

1、能提供更多新的高质量数据。

2、在训练之外的环节,增加模型的效果,主要指的就是推理。

而现在,这两件事,都在OpenAI这次最新的o1模型上实现了。


第一,这次模型使用了新的合成数据,这让可以训练的数据量增加了。

它带来的结果是:模型在训练阶段的算力需求还能继续增长,还能scaling law。

训练模型所需要的算力,如下:

使用合成数据,就是让训练数据量D继续增长。

在模型参数P不变的前提下,训练数据D增长,则训练模型需要的算力C就会增长。


第二,我认为比第一点更重要,是这次o1模型在推理阶段加大了算力资源的投入,并且取得了很好的效果,模型的逻辑推理能力大幅提升。

它带来的结果是:一条新的scaling law路径出现了。

过去在训练端狂堆算力是提升模型效果最好的方式,现在,当训练端堆算力堆到瓶颈后,接着在推理端堆算力,可以继续提升模型能力。

模型推理所需要的算力,如下

“慢系统”的有效,就是主动提升运算次数T,来提升模型效果。

在模型参数量P不变的前提下,提升运算次数T,模型在推理时需要的算力C就会增长。


—— 总结 ——

1、OpenAI的新模型o1,逻辑推理能力大幅提升,效果显著。

2、在技术层面,提供了大模型堆算力的新路径:过去在训练阶段堆算力,今后可以在推理阶段堆算力。

3、无论哪种路径,堆到一定程度后,效果都会递减,但在推理阶段堆算力,以前没搞过,是从这一次之后才开始,还能堆一阵子。

4、等竞品公司研究明白OpenAI的技术之后,应该会大量跟随复制。OpenAI只能短时间领先,但不可能长时间垄断这项技术。这意味着,一旦复制开始,堆算力的需求可能又会增长。

5、最重要的是,这一次模型逻辑推理能力的提升,可能更广泛的推动AI解决真实问题,我们希望看到的AI应用商业化,这一步迈的挺大。随着对新模型的体验加深,我会有新的感受,到时候再跟大家分享这个商业化的潜力。

6、对于美股,目前我的计划就是不动。我并不想逃顶,因为仓位不算重,现在也没有看到顶部的信号。


—— 每日估值:指数PE-Bands ——

纳斯达克

纳斯达克100

标普500

道琼斯工业

—— 以下是:股市消费记录 ——

美股

**纳指:等待……

**标普:等待……

国内

目前处于休息状态。

*** 做合格金融消费者,从记账开始!***

海外消费记录:

Ps:在国内盘中下的美股QDII订单,对应的是当日晚上的美股收盘价,实际消费值是下图标记的下一根K线。

国内消费记录:

< 分享增量信息,提升决策质量。记录真实消费。如果你感兴趣欢迎点赞关注,留言讨论,咱们交个朋友。>

风险提示:以上为个人观点,不构成买卖建议。市场有风险,投资须谨慎。

$英伟达(NASDAQ|NVDA)$$纳斯达克(QQZS|NDX)$$标普500(QQZS|SPX)$

#炒股日记##金价再创历史新高##A股并购重组活跃,能否成市场主线?##存量房贷利率将调整?影响会有多大?##英伟达带飞纳指,AI行情要卷土重来?#

追加内容

本文作者可以追加内容哦 !