2024年12月26日,模型 DeepSeek-V3 首个版本上线并同步开源。它是一个自研的 MoE 模型,最大参数量达 671B,激活 37B,在 14.8T token 上进行了预训练。其多项评测成绩超越了 Qwen2.5-72B 和 Llama-3.1-405B 等其他开源模型,并在性能上和世界顶尖的闭源模型 GPT-4o 以及 Claude-3.5-Sonnet 不分伯仲。
当前版本的 DeepSeek-V3 暂不支持多模态输入输出。此外,模型 API 服务定价调整为每百万输入 tokens 0.5 元(缓存命中)/2 元(缓存未命中),每百万输出 tokens 8 元。
该模型的发布引起了科技界的广泛关注,其在 AI 算力成本方面有显著降低,只需以往算力的1/10,这一突破为人工智能的发展带来了新的可能性。
追加内容
本文作者可以追加内容哦 !