四大权益礼包,开户即送

$光环新网(SZ300383)$   

分享下,不一定对。

最近国内爆火的幻方DeepSeek V3大约用十分之一的算力就基本实现了OpenAI最新版本的数理推理能力,被称为大模型界的pdd。这倒不是因为幻方的技术更好,而是用到了一种叫做“数据蒸馏”的技术。什么叫做数据蒸馏?个人理解,就是对着标准答案来做作业。做难题的时候,很多时候都是在试错,就是用各种思路都做一遍,最后找到那个对的。类似于寻宝的时候有100条路,你可能要把前面99条路都走到尽头,才找到正确的那条。但假如你预先知道标准答案(宝藏坐标),那很快就可以否定掉大部分路径,比方说坐标告诉你位置在北边,那就可以把通往东南西三个方向的路都直接删除掉。

在大模型领域,水平最领先的探索者不知道标准答案是啥,只能这100条路都走一遍。

但当领先者把答案已经做出来以后,后来者就只需要根据其提供的答案,就可以省略掉大部分的探索过程,所以算力成本只是领先者的几分之一。

嗯,总之“数据蒸馏”介于做作业和抄作业之间,他没有重头来做这个作业,也没有直接把解题过程和答案都抄全了,而是根据已有答案,大大提升自己解题过程的效率,就和经济上的“后发优势”差不多。

2025-01-29 23:13:28 作者更新了以下内容

“数据蒸发”本质看是一种投机取巧的方法,类似于速成,就和人一样,如果一辈子只走对路、没走过错路,实际上能力也是缺失的。

概括就是,在垂直细分领域能力训练上,数据蒸发效率很高;但在通用领域,依然会和领先者有较大差距。

所以巨佬们依然会砸很多钱在算力上,不惜代价来获取领先优势。


追加内容

本文作者可以追加内容哦 !