转自:门捷列夫学徒
周末出差在外没事干,可以多写写文章。
这几天Ai圈比较刷屏的就是DeepSeek V3这个模型号称只用了十分之一的算力就达到了Llama的效果,于是有人惊呼是不是要颠覆scaling law以及怀疑大规模的算力基建是否有必要。
我反感一些打着专业Ai的自媒体公众号(比如量**)其实啥也不懂然后文章喜欢放一堆专业名词故意让外行看不懂,以及微博一帮所谓的半吊子Ai专家在那里瞎起哄。
另外大家是来投资炒股的,不是来搞理论研究的,所以本文会围绕着“scaling law是否失效以及算力基建是否还值得下注”这个中心思想来,至于Deepseek本身好不好,其实我不太care。
1、先打个浅显的比方:在创新药界也有一个“双十定律”,即一款First in class的创新药需要花十年和十亿美金才能做出来。但是同款的仿制药无论是时间还是开销是远远低于这个数字的。所以你不能说我只用了1000万美金做出来了一款哪怕是“me better”的药,就claim自己颠覆了创新药的研发范式,别人只会觉得这是个**。
是的,deepseek也同理。其实99%的算力是浪费在了无效路径和探索上,但是没有那99%就没有那1%。
2、我们所理解的那种经典的LLM即语言模型有两种:一个是Dense,一个是Moe。Dense就是大力出奇迹的通用泛化大模型,比如LLama、GPT4等。Moe你可以理解成多个专家混合模型,比如我找16个在各自领域都很牛逼的专家,他们组合在一起就变成了一个很全能的Ai。
所以无论是Dense还是Moe要解决的都是Ai的通用泛化问题,因为没有通用性就不是这一代的AI。比如多年前很火的阿尔法go,下围棋无敌,但是做其他的完全不行。
3、目前业界公认的最有性价比的是600B左右的Moe小模型,这个早就不是什么新闻了,不知道这几天大家在震惊什么。另外因为Moe的特性是专家组合嘛,所以在一些大模型评测跑分上肯定有优势,比如做数学题,这肯定比Dense模型效率高嘛,原理决定了。
但是Moe本身的scaling是有难度的,现在TX走Moe是最坚决的,我理解腾讯想做一个像deepseek那样的600B小模型是不难的,腾讯真正现在要解决的是怎么scaling Moe的问题。
注意:上面的叙事其实都是在2024年6月之前的,大家都想的是怎么让自己的模型更聪明。但无论是Dense还是Moe似乎都出现了瓶颈,Scaling出现了性价比的问题,也就是所谓的预训练撞墙。
这其实才是真正的业内第一次质疑Scaling Law的时间点。
我一直在说Ai发展的太快了,包括很多人对于Ai的理解还是那个chatgpt。那个时候行业有一些悲观的声音(所以我现在对各种小作文完全免疫,因为好多都是半年前的问题你们现在才拿出来说[[狗头]])但下面要说的是一个全新的Scaling范式。
下面说6月之后的叙事,Asic、Agent、Inference的new story:
4,接着上面预训练撞墙的事情说,因为遇到了瓶颈,于是那时候行业里面分成了三派,也是三种新的scaling方案:
第一派是以马斯克为代表的Xai,还是大力出奇迹派:老马觉得是H卡不够好,认为十万卡集群才是未来,只要算力堆的足够多能解决目前预训练的所有问题,所以老马对B卡的下单是最激进的。也是老黄最喜欢的大客户,这一次GB200搞得这么急出现了这么多bug什么overpass不要啊都是因为老马催得急。
缺点是十万集群卡出工程化难度太大,互联问题是个绝对的难点,现在是每半小时就会出一次bug,所以未来老马要自己做cpo或者下大单千万别奇怪哦。工程化难度比spaceX还难,但老马自信觉得能解决所有的工程问题,好吧,做汽车出身的这一点非常老马[[狗头]]。
第二派叫做多模态派,也就是Sora那种。因为传统语料数据基本上用光了,但是视频数据还没有。也有观点认为人类的智慧习得也是靠眼镜观察,所以需要给大模型喂视频来提高智慧能力。
缺点也很明显:主要是多模态的数据没有语言文字那么抽象和有逻辑,模型的逻辑能力出现了问题,以及Sora一直没推出实测版所以大家怀疑是不是openai其实内部也不看好。
第三派其实才是今天的主角,那就是推理派,代表是openai、Google,以及openai那位离职的大神IIya。IIya是比较业内有影响力的大神,大神第一次公开质疑pre-train的时间点是11月,但是大家都觉得他早就找到了解决办法,那就是算法改进,scaling的方向应该是RLHF
不过对于大厂来说,这道题没这么难:那就是三派我全都要哈哈哈,比如字节,你看又重视Agent又推出了自己的Sora同时也在构建自己的十万卡群。
无论哪派好像都得买卡[[狗头]]
这也是为什么算力推进会极大加速的根本原因,是不是也特别像医药,bigpharma的策略就是平铺pipeline,biotech才会冒风险做选择哈哈。
5、说回来RL,也就是今天的推理和Agent,原理就像人类训狗一样:要给一个标准的动作奖励(reward)来提高模型能力。之前大模型经常出现幻觉的原因其实就是反馈机制不明晰不好优化,比如模型的一个回答让你觉得很荒诞,但是这一点如何反馈给模型其实比较难。所以RL的核心在于增加inference的算力或投入来代替pre-train的算力来解决这个问题。
说得再通俗一点,过去的scaling是让你多看书,RL的scaling是让你多做题,然后通过题目的正确与否来reward和优化。
RL的核心是奖励(reward),先记住这句话。
6、Agent的出现其实就是顺应第三派的一个必然产物。Agent本身就是一个模型,主要用作推理和解决实际问题。所以我为什么看好Ai+营销,为什么美股里面涨得最快的也是Ai+营销Applovin。因为营销这件事非常容易reward,结果说话就行。反面例子就是教育Agent就很难,因为一个老师讲得好不好这件事千人千面太主观了,且结果的反馈(考试成绩)太滞后了,没有办法设置reward。
这下明白Agent应该优先布局哪些方向了吧。
7、RL不用GPU也行,这是博通Asic突然大火的原因,因为笃信第三派的人越来越多(这其实就是这两个月发生的事情),前面的帖子也说过GB200和Asic的关系。我前面的帖子也说了推理(铜缆)、Agent、字节这三个要素的投资。今天第一次掰开讲这么细的逻辑。
就这么多吧,其实还有很多故事和细节,以后再写
本文作者可以追加内容哦 !