转一个分析，总的来说应该是scale应该跟专注应用和推理，而不是不断的训练，对G_财富号

转一个分析，总的来说应该是scale应该跟专注应用和推理，而不是不断的训练，对GPU的要求越来越高，光是趋势

但这只是ilya说的前半句，后半句是：现在的关键，是找到在什么地方去scaling。什么意思？预训练显然是在scale参数+数据。而RL post train是在参数不显著增加的情况下，scale了更多高质量的reasoning数据。test-time compute是scale推理的次数。这可能就是ilya的“灵魂发问”，未来到底去scale什么因子？（显然不止是上面所说的这些）

我个人甚至怀疑现在还在鼓吹猛搞预训练的“领军人物”们，是在误导对手，往沟里带。但另一些人，已经透露出了些端倪，比如微软CEO Satya说的——预训练模型LLM已经“商品化/同质化”。也就是目前基于自回归训练出的LLM语言模型，依然只是个“原材料”、“基座”，基于此再去实现更好的智能和应用，还有很多后续配方...对算力的影响？scale，本质上还是扩大算力。“大力出奇迹”依然是那根魔法棒，只是去“点”哪里的问题。因此算力还是离不开，只是把算力以什么方式、用在什么地方超大集群真不一定需要，分布式集群也可以（老黄BG2亲口盖章）。但总量会越来越大英伟达定义的Rack、超节点、superchip，依然需要。训练上，GPU依然是最优选择。经过这件事，更加说明目前处于early stage早期阶段，算法本身远没有定型。auto-regressive机制下的transformer效率还有极大优化空间。CUDA的壁垒只会越来越高推理上，GPU的壁垒，说实话我现在看不清，已经来回摇摆过多次。包括端侧，因为搞不清楚未来端侧推理多少比例也会上云（所谓隐私那部分其实很小很小）

追加内容

本文作者可以追加内容哦 !

代码	名称	最新价	涨跌幅
查看更多

代码

名称

总收益	20日收益	日收益
--	--	--

最新操作
-	-	-