华福证券算力周跟踪:字节发布豆包视频大模型,算力需求空间进一步释放
一、OpenAI近期新动作,GPT-4o高级语音开始全量推出
继上周推出o1大模型,OpenAI本周宣布开放GPT-4o高级语音。9月25日,GPT-4o高级语音开始全量推出,新增自定义指令、记忆功能,同时还改进了口音,增添五种新音色。(1)自定义指令、记忆功能:可对AI对话时的口音、语调、节奏以及称呼等进行一系列个性化设置。(2)五种新音色:由来自世界各地的专业配音演员制作的,分别被命名为ArborMaple、Sol、Spruce和Vale,将在标准和高级语音模式下提供。OpenAI的高级语音功能将向所有的Plus和Team用户推出,Plus用户每月需支付20美元,Team用户每月支付30美元并拥有更多的使用次数。OpenAI将逐步向用户推出访问权限,并从下周开始面向企业和教育推出,所有Plus用户将在秋末之前获得访问权限。
二、字节进军AI视频领域,视频生成赛道百花齐放
字节跳动发布两款视频生成大模型,正式宣告进军AI视频生成领域9月24日,火山引擎正式发布了豆包视频生成-PixelDance、豆包视频生成-Seaweed两款大模型,面向企业市场开启邀测。
1)行业领先的技术水平:官方介绍称,无论是语义理解能力,多个主体运动的复杂交互画面,还是多镜头切换的内容一致性,豆包视频生成大模型均达到业界先进水平。
2)应用层面的变革创新:此前视频生成模型大多只能完成简单指令,豆包视频生成模型则能实现自然连贯的多拍动作与多主体复杂交互。
3)应用场景的进一步拓宽:视频生成的泛化能力大幅提升,使之不仅适用于电商营销、动画教育、城市文旅、微剧本等企业场景,也能为专业创作者和艺术家们提供创作辅助。
阿里通义万相上线AI生视频功能,能力全面进化。9月19日,阿里云发布了通义万相Wanx视觉生成大模型的新升级,AI生视频功能正式开放,能够支持最长5秒视频生成,每秒30帧,分辨率为720P,同时优化了中式元素表现,支持自动生成音频特效。该功能在手机端App不限次数免费使用,PC端每天登陆送50个灵感值,可生成10次。通义万相除了此前的文生图能力,现已支持文生视频、图生视频等,还有插画设计、涂鸦作画、局部重绘、短片创作、配乐生成等场景化能力。据阿里云官方透露通义万相累计创作图片数已达7500万+,累计用户数已达93万+。
智谱开源图生视频模型。9月19日,智谱开源了图生视频模型CogVideoX-5B-I2V和标注模型cogvlm2-llama3-caption。在实际应用中,CogVideoX-5B-I2V支持“一张图+提示词”生成视频,而
cogvlm2-llama3-caption则是负责将视频内容转换成文本描述。对于模型的使用,实际用户反馈褒贬不一,有称赞也有不满,显示模型在某些情况下生成效果和速度有待提升。
三、远期AI算力:不止OpenAI1,视频大模型潜力不容小觑
此前OpenAI1对推理算力的积极影响已引发市场关注,推理算力对总算力需求的重要程度得到进一步印证,而此次字节豆包视频大模型的推出,也有望从视频大模型维度打开算力需求空间,我们看好近期AI领域发生的应用创新对远期算力需求的积极影响。
四、AI大模型跟踪
ChatGPT访问量再创新高,Runway视频大模型访问量波动向上。据similarweb最新数据(0913-0919):(1)ChatGPT访问量持续攀升。9月24日,谷歌升级旗下Gemini 1.5 AI模型,推出Gemini-1.5-Pro-002和Gemini-1.5-Flash-002,相较此前版本成本更低、性能更强、响应更快。9月25日,GPT-4o高级语音开始全量推出。(2)Runway本周访问量增幅亮眼。9月18日,Runway推出基于Gen-3 Alpha Turbo模型的API服务。9月19日,快手可灵AI升级1.5版,运动笔刷功能亮相,高清1080p视频一键生成。(3)豆包访问量持续增长。据七麦最新数据(0918-0924):豆包APP本周下载量增幅显著。近期,豆包大模型家族迎来重磅更新。9月19日,字节推出音乐大模型Seed-Music;9月24日,视频生成大模型PixelDance和Seaweed发布。应用革新对流量拉动效果显著。
一、OpenAI近期新动作,GPT-4o高级语音开始全量推出
继上周推出o1大模型,OpenAI本周宣布开放GPT-4o高级语音。9月25日,GPT-4o高级语音开始全量推出,新增自定义指令、记忆功能,同时还改进了口音,增添五种新音色。(1)自定义指令、记忆功能:可对AI对话时的口音、语调、节奏以及称呼等进行一系列个性化设置。(2)五种新音色:由来自世界各地的专业配音演员制作的,分别被命名为ArborMaple、Sol、Spruce和Vale,将在标准和高级语音模式下提供。OpenAI的高级语音功能将向所有的Plus和Team用户推出,Plus用户每月需支付20美元,Team用户每月支付30美元并拥有更多的使用次数。OpenAI将逐步向用户推出访问权限,并从下周开始面向企业和教育推出,所有Plus用户将在秋末之前获得访问权限。
二、字节进军AI视频领域,视频生成赛道百花齐放
字节跳动发布两款视频生成大模型,正式宣告进军AI视频生成领域9月24日,火山引擎正式发布了豆包视频生成-PixelDance、豆包视频生成-Seaweed两款大模型,面向企业市场开启邀测。
1)行业领先的技术水平:官方介绍称,无论是语义理解能力,多个主体运动的复杂交互画面,还是多镜头切换的内容一致性,豆包视频生成大模型均达到业界先进水平。
2)应用层面的变革创新:此前视频生成模型大多只能完成简单指令,豆包视频生成模型则能实现自然连贯的多拍动作与多主体复杂交互。
3)应用场景的进一步拓宽:视频生成的泛化能力大幅提升,使之不仅适用于电商营销、动画教育、城市文旅、微剧本等企业场景,也能为专业创作者和艺术家们提供创作辅助。
阿里通义万相上线AI生视频功能,能力全面进化。9月19日,阿里云发布了通义万相Wanx视觉生成大模型的新升级,AI生视频功能正式开放,能够支持最长5秒视频生成,每秒30帧,分辨率为720P,同时优化了中式元素表现,支持自动生成音频特效。该功能在手机端App不限次数免费使用,PC端每天登陆送50个灵感值,可生成10次。通义万相除了此前的文生图能力,现已支持文生视频、图生视频等,还有插画设计、涂鸦作画、局部重绘、短片创作、配乐生成等场景化能力。据阿里云官方透露通义万相累计创作图片数已达7500万+,累计用户数已达93万+。
智谱开源图生视频模型。9月19日,智谱开源了图生视频模型CogVideoX-5B-I2V和标注模型cogvlm2-llama3-caption。在实际应用中,CogVideoX-5B-I2V支持“一张图+提示词”生成视频,而
cogvlm2-llama3-caption则是负责将视频内容转换成文本描述。对于模型的使用,实际用户反馈褒贬不一,有称赞也有不满,显示模型在某些情况下生成效果和速度有待提升。
三、远期AI算力:不止OpenAI1,视频大模型潜力不容小觑
此前OpenAI1对推理算力的积极影响已引发市场关注,推理算力对总算力需求的重要程度得到进一步印证,而此次字节豆包视频大模型的推出,也有望从视频大模型维度打开算力需求空间,我们看好近期AI领域发生的应用创新对远期算力需求的积极影响。
四、AI大模型跟踪
ChatGPT访问量再创新高,Runway视频大模型访问量波动向上。据similarweb最新数据(0913-0919):(1)ChatGPT访问量持续攀升。9月24日,谷歌升级旗下Gemini 1.5 AI模型,推出Gemini-1.5-Pro-002和Gemini-1.5-Flash-002,相较此前版本成本更低、性能更强、响应更快。9月25日,GPT-4o高级语音开始全量推出。(2)Runway本周访问量增幅亮眼。9月18日,Runway推出基于Gen-3 Alpha Turbo模型的API服务。9月19日,快手可灵AI升级1.5版,运动笔刷功能亮相,高清1080p视频一键生成。(3)豆包访问量持续增长。据七麦最新数据(0918-0924):豆包APP本周下载量增幅显著。近期,豆包大模型家族迎来重磅更新。9月19日,字节推出音乐大模型Seed-Music;9月24日,视频生成大模型PixelDance和Seaweed发布。应用革新对流量拉动效果显著。
风险提示:投资人应当认真阅读《基金合同》、《招募说明书》等基金法律文件,了解基金的风险收益特征,并根据自身的投资目的、投资期限、投资经验、资产状况等判断基金是否和投资人的风险承受能力相适应。基金的过往业绩并不预示其未来表现,基金管理人管理的其他基金的业绩并不构成基金业绩表现的保证。基金有风险,投资需谨慎。
免责声明:转载内容来自机构研报摘要、公开权威媒体报道,仅供读者参考,版权归原作者所有,内容为作者个人观点,版权归原作者(机构研究员、媒体记者)所有,内容仅代表作者个人观点,与建信基金管理有限公司无关;不作为对上述所涉行业及相关股票、基金的推荐,也不构成投资建议。对本文以及其中全部或者部分内容、文字的真实性、完整性、及时性本公司不作任何保证或承诺,请读者仅作参考。如需购买相关基金产品,请关注投资者适当性管理相关规定,做好风险评测,选择与之相匹配风险等级的产品。本文只提供参考并不构成任何投资及应用建议。如您认为本文对您的知识产权造成了侵害,请立即告知,我们将在第一时间处理。
#算力板块活跃,如何布局?#$建信信息产业股票A(OTCFUND|001070)$
本文作者可以追加内容哦 !