$每日互动(SZ300766)$ 最近关于DeepSeek的新闻主要集中在其最新推出的DeepSeek-V3模型上 DeepSeek-V3模型发布与开源: 2024年12月26日,DeepSeek正式发布了其最新的大型语言模型DeepSeek-V3,并同步开源。该模型在多个评测中表现出色,超越了阿里云的Qwen2.5-72B和Meta的Llama-3.1-405B等开源大模型DeepSeek-V3采用了671亿参数的混合专家(MoE)结构,包含256个专家,使用sigmoid函数作为路由方式。其训练成本相对较低,仅为557.6万美元。性能与应用DeepSeek-V3在编程测试排行榜中超越了Claude 3.5 Sonnet,成为当前最强的开源大型语言模型。在知识类任务如MMLU、MMLU-Pro、GPQA和SimpleQA等测试中,该模型也表现出色。该模型的设计注重算法优化,采用了自研的MoE模型结构,提升了运算效率。 DeepSeek-V3的发布引起了AI界的广泛关注,被认为是低成本高效能的代表。其开源策略也得到了业界的认可,有助于推动全球AI技术
追加内容
本文作者可以追加内容哦 !