最近,小米在人工智能领域的技术动作频频,接连发布了两项重磅研究成果:一项是让机器人“手感”更精准的触觉模型 TacRefineNet,另一项是大幅降低大模型推理负担的混合稀疏注意力架构 HySparse。这两项技术分别面向具身智能和大模型Agent应用,展现出小米在AI底层架构与机器人感知控制方面的深度布局。
机器人也能“指尖微调”:TacRefineNet实现毫米级抓取
小米机器人团队最新推出的 TacRefineNet 是一个专注于精细操作的通用框架,最大亮点在于它完全依赖触觉反馈,无需视觉输入,也不需要预知物体的三维模型,就能完成高精度的位姿调整。这意味着,即使在光线昏暗或视野遮挡的复杂工业场景中,机器人依然能“凭手感”把零件摆正。
实验显示,在汽车工厂常见的多种物体抓取任务中,即便初始抓取存在偏差,TacRefineNet也能通过触觉反馈快速迭代调整,将平均位置误差缩小至毫米级别。这项技术特别适用于装配、质检等对精度要求极高的自动化流程。目前,相关代码和实验视频已公开,后续更多进展也即将推出。
HySparse:用5层全注意打动80B大模型
另一边,小米MiMo大模型团队发布的 HySparse 架构,则瞄准了当前大模型在长文本处理中的核心瓶颈——KV Cache占用过高。传统稀疏注意力虽然减少了计算量,但为了防止关键信息丢失,仍需保留全部KV缓存,导致显存压力居高不下。
HySparse 的创新在于采用“少量全注意力 + 多层稀疏注意力”的混合结构(hybrid block)。每个模块中,仅由一层Full Attention负责识别重要token并生成KV Cache,后续N层稀疏层直接复用这些信息,不再独立选择或存储。这样一来,既避免了因代理信号不准导致的选择误差,又显著降低了KV Cache开销。
在80B参数的MoE模型中,仅保留5层全注意力,KV Cache就减少到原来的1/11,相当于节省了近90%的存储。更难得的是,模型性能不仅没下降,在数学、代码、中文理解等多项测试中还实现了稳定提升,甚至在某些任务上超过了全注意力基线。RULER长文评测也证明,其长距离信息访问能力非常稳健。
面向Agent时代的技术铺路
小米将HySparse定位为“面向Agent时代”的架构设计,背后逻辑清晰:未来的AI Agent需要长时间记忆、连续规划与高效响应,不能只拼模型能力,更要算得快、记得住、省资源。HySparse通过精巧的结构分工,实现了“效果不降、效率飙升”,为超长上下文的落地提供了新思路。团队表示,未来还将探索进一步减少全注意力层数的可能性,并在更大规模模型上验证其潜力。
本文作者可以追加内容哦 !