【西部郑宏达】今天上午字节发布了带有视觉能力的豆包大模型

1、完全符合我们的预期,甚至比我想的还要早,效果比我想的要好很多!

2、我们一直强调,拥有视觉理解能力的交互型多模态大模型是应用爆发的基础,因为人类信息的绝大部分都是来自视觉,应用非常广泛。

3、字节展示了豆包大模型的视觉能力,包括地点认知、记忆能力、联想能力、搜索能力、识物能力、数学推理能力,响应时间也非常短。

4、价格:每千token 3厘

5、标的:

1)视觉SoC:恒玄科技、星宸科技、安凯微。              

2)存储:东芯股份、普冉股份。

6、参考报告:
《具有视觉能力的多模态大模型将对视觉SoC和存储带来新需求》
· ChatGPT升级视觉能力,迎来里程碑式的更新。OpenAI发布季的第六天,5月份预告的语音和视觉功能(AdvancedVoicewithVision)终于发布。用户可以在对话过程中展示实时视频或共享屏幕。在OpenAI的场景演示中,ChatGPT能够“看”到并理解周围环境,与在场人员互动,甚至能精准地记忆名字和细节。同时,ChatGPT现在亦能够查看用户的电脑屏幕,并提供即时建议和反馈。视觉能力的升级,让ChatGPT突破了文本和语音的限制,迈入真正的多模态交互时代。这种能力在教育、工作和社交等领域都将具有广泛的应用潜力。· 交互型多模态大模型有望带来AI应用的爆发。多模态更符合人类感知周边、探索世界的方式;而应用的本质是交互,应用发展的核心就是人机交互的不断进化与深化。大模型的终极形态,是让人机交互进化到最原始、最简单的形态,在未来和电脑、手机等直接说话交流或许就是最主要的交互方式。交互模式的简化,会极大降低AI的使用门槛,交互型多模态大模型带来的这种更加直观、傻瓜的交互,有望带来大模型应用更大面积的普及。· 我们判断,国内模型厂商将在交互式多模态大模型领域着重发力。以字节为例,字节在生成式AI领域采取“饱和式”攻击策略,目前已成为国内拥有最全生成式AI模型、最多AI应用的技术公司之一。模型端,字节豆包大模型家族已包括了通用大语言、语音合成和识别、图片及视频等不同模态的生成式AI模型,但仍缺少具有视觉能力的可交互多模态大模型。同时,以智能体耳机、智能玩偶、台灯为切入点,通过与生态伙伴的合作,字节在AI硬件端业已开始了布局。但同样受限于交互多模态模型的缺失,AI硬件产品仍只能实现语音层级的交互。· 为什么我们持续看好视觉SoC领域?我们一直认为视觉能力是大模型能力的核心,因为视觉输入占据人类交互信息的绝大多数。我们可以预期,未来字节亦有望推出带有视觉能力的交互式多模态大模型,因而在包括AI玩具或AI眼镜等的下一代AI硬件终端中,视觉SoC将有望成为标配。另外地,这也将新增对Nand存储芯片的需求。

$东芯股份(SH688110)$ $兆易创新(SH603986)$

追加内容

本文作者可以追加内容哦 !