$四维图新(SZ002405)$  四维图新和OPPO搞了个LLMI3D大模型!这个很牛啊!对于自驾驶、机器人、增强现实等领域具有重要的应用前景!$上证指数(SH000001)$  $深圳华强(SZ000062)$  



图片

LLMI3D 通过空间增强的局部特征挖掘技术,提高了对图像中物体的空间和局部特征的感知;利用3D查询令牌导出信息解码技术,优化了几何数值的输出效率和准确性;并采用基于几何投影的3D推理方法,以减少相机焦距变化对3D感知的影响。此外,研究者还构建了IG3D数据集,为模型的训练和评估提供了丰富的细粒度描述和问答注释。

LLMI3D 的处理过程和技术特点包括:

  • 首先,它采用空间增强局部特征挖掘技术,通过CNN和深度预测器从高分辨率图像中提取空间增强的局部特征,并利用ViT获取低分辨率图像的令牌,然后通过空间增强的交叉分支注意力机制有效地挖掘物体的空间局部特征。

  • 其次,LLMI3D提出了3D查询令牌导出信息解码方法,使用可学习的3D查询令牌和3D头来准确回归物体的几何属性,包括图像的3D中心、虚拟深度、3D尺寸和6D旋转。

  • 最后,为了获得物体的3D边界框并处理MLLMs无法处理相机焦距变化的问题,LLMI3D引入了基于几何投影的3D推理,结合神经网络和几何投影方法,通过集成相机参数来减少不同相机焦距对3D感知的影响。

  • LLMI3D 的价值在于其能够显著提高从2D图像到3D空间认知的准确性和效率,这对于自动驾驶、机器人、增强现实等领域具有重要的应用前景,有望在未来的3D感知任务中发挥更大的作用,推动相关领域的技术发展和应用创新。


    追加内容

    本文作者可以追加内容哦 !