转一个分析,总的来说应该是scale应该跟专注应用和推理,而不是不断的训练,对GPU的要求越来越高,光是趋势
但这只是ilya说的前半句,后半句是:现在的关键,是找到在什么地方去scaling。什么意思?预训练显然是在scale参数+数据。而RL post train是在参数不显著增加的情况下,scale了更多高质量的reasoning数据。test-time compute是scale推理的次数。这可能就是ilya的“灵魂发问”,未来到底去scale什么因子?(显然不止是上面所说的这些)
我个人甚至怀疑现在还在鼓吹猛搞预训练的“领军人物”们,是在误导对手,往沟里带。但另一些人,已经透露出了些端倪,比如微软CEO Satya说的——预训练模型LLM已经“商品化/同质化”。也就是目前基于自回归训练出的LLM语言模型,依然只是个“原材料”、“基座”,基于此再去实现更好的智能和应用,还有很多后续配方...对算力的影响?scale,本质上还是扩大算力。“大力出奇迹”依然是那根魔法棒,只是去“点”哪里的问题。因此算力还是离不开,只是把算力以什么方式、用在什么地方超大集群真不一定需要,分布式集群也可以(老黄BG2亲口盖章)。但总量会越来越大英伟达定义的Rack、超节点、superchip,依然需要。训练上,GPU依然是最优选择。经过这件事,更加说明目前处于early stage早期阶段,算法本身远没有定型。auto-regressive机制下的transformer效率还有极大优化空间。CUDA的壁垒只会越来越高推理上,GPU的壁垒,说实话我现在看不清,已经来回摇摆过多次。包括端侧,因为搞不清楚未来端侧推理多少比例也会上云(所谓隐私那部分其实很小很小)
本文作者可以追加内容哦 !