金融界
2024-12-22 14:43北京富华创新科技发展有限责任公司官方账号,优质财经领域创作者
已关注
文|杨泽原丁奇马庆刘
2024年12月18日至19日,字节跳动在2024冬季火山引擎Force原动力大会重磅发布,豆包大模型家族通用文本、视觉理解、音乐生成、文生图等模型能力升级,在模型丰富度和核心能力上全面对标OpenAI。模型流量自发布以来增长33倍,日均调用Token达到4万亿,商业落地持续加速。我们看好2025年在豆包等优质国产模型的引领下,以Agent模式为代表的AI应用在各领域加速落地,同步带动数倍算力需求,建议关注AI产业链相关投资机遇。
模型能力:豆包大模型家族全面升级,技术能力全面对标OpenAI。
模型层,全新发布视觉理解模型对标GPT-4o视觉理解能力,通用文本模型豆包Pro、音乐模型、文生图模型实现升级,在模型丰富度和模型能力上全面对标OpenAI:
1)视觉理解模型:具备物体识别能力且可以理解物体之间的关系,未来有望落地图片问答、医疗健康、教育科研、电商、购物、生活助手等场景,根据发布会公布数据,模型定价3元每百万Token,较行业价格降低85%。
2)通用文本模型:豆包Pro较老版本在基准测试集表现上大幅提升,根据发布会公布数据,模型达到GPT-4o同等水平,MMLU Pro测试集正确率74.6%,提升32%,MATH测试集正确率84.0%,提升43%。价格上,豆包Pro只有GPT-4o的1/8,低推理成本形成重要竞争力。
3)音乐生成模型:生成时长提升到3分钟,可运用旋律、节奏、和声等复杂音乐元素,且全曲的曲风更加连贯。根据发布会信息,Vivo手机10月份就已经接入豆包音乐模型,在相册中根据图片和提示词生成音乐。
4)文生图模型:指令理解能力升级,针对中文进行优化,打造一键P图和一键海报两大功能。在视觉生成工具即梦(Dreamina)中,模型展现良好光影和例题效果生成,艺术风格更加鲜明,具备强大图片和文字的结合能力。
落地进展:产品功能持续丰富,日均调用量快速提升,苹果合作打开端侧空间。
对话机器人方面,发布会上展示豆包在景点推荐、文化探索、体检报告、教育学习、论文伴读、多媒体创作等方面的应用案例,落地日常生活场景培养用户使用习惯。视觉生成方面,即梦融合文生图和文生视频能力,提供文字局部重绘等实用功能,可以高效支持海报、短片创作,例如仅3人的悟空AI团队利用即梦创作8集短片,成为首部单日破40万播放的AI短剧。根据公司发布会公布数据,豆包大模型日均调用Token量从5月份的1200亿,增长到当前4万亿的水平,7个月增长超33倍。分场景看,最近3个月信息处理场景增长39倍,客服和销售场景增长16倍,硬件助手场景增长14倍,AI工具场景增长9倍。参考财联社新闻,苹果正在与字节跳动和腾讯商谈将AI模型应用在中国销售的iPhone中,豆包大模型有望进一步打开端侧应用市场。
应用展望:国产模型基座加速追赶,关注AI Agent在B/C端的落地机遇。
参考OpenAI前首席科学家Ilya在NeurIPS 2024上的演讲,高质量数据规模限制下,未来模型的海外前沿模型预训练或逐步趋缓。而以豆包为代表的国产模型有望缩小与海外前沿模型的差距,并依托丰富生态和成熟流量加速各领域应用落地。其中,Agent模式有望以更长的任务流程、更好的场景理解、更高的自主能力,成为所有互联网用户的数字助手,在B/C端加速落地。B端,我们认为海外Palantir、Salesforce等公司持续引领产业,2025年模型场景化、行业化发展趋势明确,以降本增效为核心方向,在企业管理、教育、办公、金融等领域展现应用价值。C端,以豆包为代表的产品功能持续丰富,AI产品融入生活实现流量快速提升,完善的应用开发工具和平台支持AI应用创新,2025年或将有更多爆款应用产品涌现。
追加内容
本文作者可以追加内容哦 !