DeepSeek又传来重磅消息。
2月25日,据路透社报道,DeepSeek计划提前发布其新一代AI模型R2。该公司最初计划在5月推出,但目前正在努力尽快推出。DeepSeek表示,新模型将在编程能力和多语言推理方面有所提升。
对此,幻方量化相关人士回复券商中国记者,“以官方消息为准。”
此外,阿里巴巴于2月25日晚间全面开源旗下视频生成模型万相2.1模型。
值得注意的是,DeepSeek API开放平台2月25日也宣布重新开启API充值服务。由于服务器资源紧张,该平台曾在2月6日暂停了API服务的充值功能。
DeepSeek-R2要来了?
DeepSeek的下一代模型R2的进展备受市场关注。
2月25日,据路透社报道,DeepSeek计划提前发布其新一代AI模型R2。据知情人士透露,R2原定于5月初发布,但现在公司希望尽快推出。DeepSeek表示,新模型将在编程能力和多语言推理方面有所提升。对于R2 的发布时间表,没有提供具体细节。
印度技术服务提供商Zensar的首席运营官Vijayasimha Alilughatta表示:“DeepSeek的R2模型发布可能会成为AI行业的一个关键时刻。DeepSeek成功打造了具有高性价比的AI模型,将促使全球公司加速研发进程,打破目前由几家主导企业垄断的格局。”
对此,幻方量化相关人士回复券商中国记者,“以官方消息为准。”
此前,有行业人士在Reddit中发帖表示,DeepSeek-R1在编码和SWE-Bench方面已经与OpenAI匹敌,甚至没有使用他们最大的突破——强化学习 (RL),这种情况即将改变。“他们正在解决这个问题。未来版本将集成拒绝采样和异步评估,使强化学习可用于软件工程。路线图非常清晰:DeepSeek-R2将是一次优化飞跃,而不是算法飞跃。如果说DeepSeek证明了什么,那就是他们解决优化问题的能力。”
分析认为,DeepSeek的成功得益于幻方投资十多年来在研究和计算力方面的大量投入。幻方于2020年和2021年斥资12亿元人民币建立了两个AI超级计算集群,其中包括约1万片英伟达A100芯片。
据知情人士透露,DeepSeek前员工表示,公司的成功主要归功于梁文锋专注于更具成本效益的AI架构。DeepSeek采用了混合专家(MoE)和多头潜在注意力(MLA)等技术,大大降低了计算成本。
伯恩斯坦经纪公司的分析师在2月初估计,DeepSeek的定价比OpenAI同类模型的收费便宜20到40倍。这也引发OpenAI在本月降价,而谷歌的Gemini也推出了折扣访问层级。自R1推出以来,OpenAI还发布了一款依赖较少计算能力的O3-Mini模型。
此外,DeepSeek API开放平台今日也宣布重新开启API充值服务。此前,由于服务器资源紧张,该平台曾在2月6日暂停了API服务的充值功能。
阿里将发布视频生成模型
与此同时,阿里巴巴也传来一则重磅消息。
据新浪科技从知情人士处获悉,阿里巴巴将于今日晚间全面开源旗下视频生成模型万相2.1模型。今年1月,阿里旗下万相刚宣布推出2.1版本模型升级,视频生成、图像生成两大能力均获得提升。
在视频生成方面,万相2.1通过自研的高效VAE和DiT架构增强了时空上下文建模能力,支持无限长1080P视频的高效编解码,首次实现了中文文字视频生成功能,登上VBench榜单第一。
据此前介绍,万相2.1支持中英文视频,可以一键生成艺术字,还提供多种视频特效选项,以增强视觉表现力,例如过渡、粒子效果、模拟等。
随着万相2.1模型开源,这意味着更多的开发者,将能够低成本获取并使用该模型底层代码,进而用以开展与自身业务相关的各类视频生成应用。
值得注意的是,就在今日早间,阿里Qwen团队在社交媒体宣布发布新推理模型——深度思考(QwQ)。这是在QWQ-MAX-PREVIEW支持下,一个基于Qwen2.5-Max的推理模型。QwQ可同时支持深度思考和联网搜索,并会展示完整的思维链。
Qwen团队称,QWQ-MAX官方版本即将发布,同步会发布Android和iOS应用程序,还会发布更小的可在本地设备部署的模型,如QWQ-32B等。
本文作者可以追加内容哦 !