划重点:
1、多模态大模型助力自动驾驶加速进化
2、语言、空间智能并重,现金流充裕整车厂有望获益
近日,马斯克宣布,旗下对标OpenAI的xAI,即将推出下一代AI模型Grok 3,其预训练现已完成,计算量比Grok 2高10倍。
怎么看老马这个产品?
首先,可以肯定是,目前Grok vision已具有较强的空间理解能力,对于前视摄像头的输出图像能够给出较好的驾驶决策。
现实的验证是,xAl第一代多模态大模型在24年4月推出,具有强大的空间理解能力,在"RealWorldQA物理世界理解"测试中得分68.7%,超越其他模型,表现出应用于智能驾驶中的潜力。
英伟达科学家Jim Fan也在推特上表示,Grok 1.5v可以帮助将自动驾驶采集到的视频像素——>映射到language——>再到映射到驾驶决策action。
因此,无论是使用Grok协助FSD进行训练,还是在特斯拉下一代智驾预控Al5中,将FSD与Grok进行集成,提高算法的空间理解和泛化能力。
其次,大家可能会关心多模态大模型具体如何体现在智能驾驶的技术应用中。
现在主要有2个路线。其一,以端到端为基础,外加视觉多模态VLM。VLM提供不仅限于驾驶场景的经验积累,在复杂场景中为端到端模型提供驾驶决策建议。该方案为目前主流方案。典型代表理想、小鹏、小米等,目前国内主流的落地方案。
其二,开发类基座大模型融合端到端与多模态。将双系统的能力合二为一,目前尚在预研阶段,Tesla已初现成效,国内预计25-26年将陆续量产上车。
最后,训练基座多模态大模型所需要的算力?或者说什么样的资金体量可以支撑玩家不下牌桌?
据了解,xAl的Grok 2基于约2万张H100(20E FLOPS)训练,即将发布的Grok 3基于10万张H100(100E FLOPS)训练。截至2024年底,特斯拉自身具备等效10万张H100的算力集群(100E FLOPS)。而这10万张H100,对应约40e美金的资本开支。
分析到这里,结论其实很明确了。表现卓越的语言智能(大语言模型)能够加速空间智能(智驾)的迭代并提高算法上限。国内目前语言、空间智能并重,且现金流充沛的车企将有望引领下一波智能驾驶的发展,并率先跑通和落地L3级自动驾驶。华为($赛力斯(SH601127)$)、$理想汽车-W(HK|02015)$是业内公认跑得比较快的选手,其他像小鹏、蔚来也在快速发展,$比亚迪(SZ002594)$都在努力追赶中。
欢迎关注、转发、点赞、留言
#【盘逻辑】深度解析,理清投资思路#
#社区牛人计划#
#微软巨资投向AI数据中心,英伟达股价大涨#
#马斯克又成大赢家?#
#谷歌、特斯拉等大型科技股接连创新高#
本文作者可以追加内容哦 !