上海岩芯数智申请长视频理解增强方法及装置专利,实现减小训练成本
2024-12-2119:53金融界网站官方账号
金融界2024年12月21日消息,国家知识产权局信息显示,上海岩芯数智人工智能科技有限公司申请一项名为“一种与音频信息对齐的长视频理解增强方法及装置”的专利,公开号CN 119152888 A,申请日期为2024年11月。
专利摘要显示,本发明提供一种与音频信息对齐的长视频理解增强方法及装置,解决了现有技术中存在的对视频数据进行处理时,未考虑视频中的音频信息以及大语言模型的训练和推理的成本大的问题。1)通过交叉注意力模块,实现了在增强视频时空特征融合的同时也减小了视频画面特征的序列长度,进一步减小了训练成本;2)通过编码视频中的音频信息并下采样至视频画面特征的序列长度,实现了视频中音频模态与对齐;3)将时间维度对齐的音频模态与画面模态相加,进行了信息的融合。将音频模态经过下采样与间隔选取的视频画面模态长度进行对齐,保留了全部信息。然后与画面模态相加,补齐了画面模态中因为间隔抽帧而造成的信息缺失问题。
本文源自金融界
邀你讨论
什么是智能芯片技
术?63讨论数
去发布
搜索
岩芯科技
上海爷叔点评岩山科技
岩芯数智是谁的子公司
岩山科技脑机专家
上海岩芯科技有限公司
岩山科技成立岩芯数智
追加内容
本文作者可以追加内容哦 !