$锐捷网络(SZ301165)$  $中兴通讯(SZ000063)$  幻方deepseek事件周末仔细研究了一下,重大突破,大模型训练成本下降十倍,meta用了16000个h100,幻方用了2000个阉割版的h800就做到了,国人长志气。股友更关心的是对算力需求有什么影响。周五算力板块跌了很多人说是利空,逻辑是训练一次原来上亿刀现在500万就搞定了,设备需求就变小了。这里提出一些另类的观点:

1.首先训练的时间仍然很慢:两个月。更大的集群可不可以把训练时间减少十倍,比如比如16000张h100会不会只用6天就完成训练?以我作为算法工程师经验,肯定不会这么快,集群规模加大十倍训练速度不可能线性提升十倍,有个三到五倍的加速已经很优秀了。制约大模型训练的时间约束仍然存在,时间太长导致训练要考虑快照灾备,很难做参数微调的分支实验,拥有一个万卡集群仍然是大模型团队的首选,算力集群是瓶颈,越多越好的结论不变

2.训练成本下降十倍会不会导致更多的玩家可以下场参加这个竞赛?周五幻方公布了自己的云服务API,周五晚美股金山云暴涨,叠加最近小米入局,市场相信会有更多玩家加入

3.已经下场的玩家对自己算力的预算怎么看。比如字节的决策层,是把算法团队的预算砍一些还是加大投入争取弯道超车呢?如果相信第一条分析那是不可能砍预算的。比较有野心的决策者倾向于会加大硬件投入跟人才招聘。未来随着软硬件的迭代训练成本只会变低,门槛也会降低,玩家会越来越多,在技术爆发的奇点时刻,要抢夺更多人才和算力卡才能建立自己的领先优势,更大规模的算力可以显著提高模型的迭代速度,同时提高潜在竞争对手的入门成本

4.幻方事件对海内外算力企业的影响,不好点评,拍脑袋就是利好国产替代,国内企业硬气一把。算力的总需求只跟算力玩家的设备采购有关,deepseekv3的出现显然打开了国内设备需求的天花板。周五大a算力的杀跌更像是有人误以为利空而恐慌性砸盘,当然你说算力板块周四高潮见顶周五是利好兑现那也没毛病。见仁见智,如果是利空砸盘,那经过周末的冷静,短线就是修复了,如果是利好兑现那自然短线要调整。目前从股吧跟微博看,旗帜鲜明说是利好的貌似就本人,大部分博主都说是幻方事件是算力利空,这些言论是经不起仔细推敲。

5.谈了这么多大家也可以说我是托或者纸上谈兵,建议大家关注招聘软件上大模型工程师的需求变化和国内云厂商的美股走势验证,美股更讲逻辑

2024-12-29 08:09:33 作者更新了以下内容

6. 昨晚在微博上又做了些功课,幻方的计算方法有争议,核心就是幻方知识蒸馏部分用到的现有模型输出的推理数据没有算到它的计算成本里面,开始我还以为是他自己模型得数据没有关注。这部分如果加进来肯定没有十分之一那么夸张,严重吹水,但也不影响他们的工作很优秀。长远看随着算法的改进软硬件的迭代训练速度肯定会有大进步,因为这种进步就说设备需求爆发的预期没了,这不是唱空小作文么?实际情况是现有的技术进步速度远不能满足需求爆发的速度。按照幻方的说法,千卡集群俩月训练一个模型,然后算力就够了?千卡两天训练出来(可以拿图灵奖了)再说算力够了我还能信,目前圈内只是称赞成果很棒,拿个顶会的best paper没问题,离划时代的突破还有距离

总之 deepseek 成果很棒,加速十倍吹水不少,在技术上远不能解决算力硬件瓶颈,但在商业逻辑上会极大激发各大企业入坑大模型的热情,维持昨天结论不变

追加内容

本文作者可以追加内容哦 !