OpenAI创始团队成员、高级研究科学家Andrej Karpathy很罕见地,分享了一个来自中国的开源大模型——DeepSeek-v3。

Karpathy表示,DeepSeek仅用了280万小时的GPU算力,就训练出了比Llama-3 405B(使用3080万小时GPU)更强的前沿模型,整体成本节省了11倍左右,将算力发挥到了极致。

这为小模型和受算力限制的组织打开了全新世界——即便在算力有限的情况下,使用高质量数据、更好的算法同样能训练出高性能大模型。

此外, DeepSeek在MMLU、DROP、Codeforces、AIME等多个主流基准测试中,性能大幅度超过了GPT-4o、Claude-3.5-Sonnet、Qwen2.5-72B等著名开闭源模型,成为目前最强开源大模型之一。

追加内容

本文作者可以追加内容哦 !