炒股第一步,先开个股票账户

360开源的Light-R1-14B-DS创造了三项行业纪录:

一是能力复现。Light-R1-14B-DS首次在数学能力上,用14B 模型复现了强化学习效果,通过多阶段课程学习SFT和强化学习,Light-R1-14B-DS的表现超过DeepSeek-R1-Distill-Llama-70B和DeepSeek-R1-Distill-Qwen-32B,是目前最优的14B模型,这验证了RL强化学习策略的有效性,RL对端侧模型训练的收益很大,仍有进一步挖掘潜力。

(Light-R1 训练流程)

二是效率革命。Light-R1-14B-DS 经过长思维链强化学习后训练,在AIME 24和25上分别取得了74.0和60.2的成绩,数学部分表现超越DeepSeek的70B(72.6分)和32B(54.9分)蒸馏模型,取得了非常显著的提升,这标志着推理能耗进一步降低。另一版本的Light-R1-7B-DS,无需量化即可端侧部署。此次探索,在低成本复现 DeepSeek-R1方面迈出了重要一步。

三是泛化能力增强。Light-R1-14B-DS在科学常识评测GPQA上涨,打破了模型“灾难性遗忘”的魔咒,具有较好的泛化性,开辟模型优化新路径。



最强14B端侧推理模型,撕开了DeepSeek 70B的性能封锁线,端侧AI迎来了规模化普及的拐点。不过,在AI与大众之间,还差一个开源。

追加内容

本文作者可以追加内容哦 !