颜水成团队提出混合注意力头模型,基于通用型基础网络结构,计算资源受限也能提升模型适用性

2024年10月27日 18:08 网易新闻
近日,昆仑万维 2050 研究院院长颜水成教授团队、联合北京大学袁粒助理教授团队提出一种混合注意力头模型。

该模型基于一种通用的基础网络结构,能被用于任何基于 Transformer 或基于多头注意力机制的模型。目前,主流大模型比如 ChatGPT 和 SORA,均构建于 Transformer 架构之上。

而该课题组期望混合注意力头模型能用于上述模型之中,从而帮助降低用户使用成本。此外,本次提出的混合注意力头模型还能在移动端等计算资源受限的场景下提升大模型的适用性。研究中,该团队在视觉理解模型(ViT,Vision Transformer)、视觉生成模型(DiT,Diffusion Transformers)以及大语言模型(LLM,Large Language Model)上进行了大量实验。

结果表明,混合注意力头模型只需使用 50% 到 90% 的注意力头,就能超过原始模型的性能。为了进一步扩展混合注意力头模型方法的适用性,他们还通过实验证明预训练的多头注意力模型(比如 LLaMA3-8B)可以继续优化为混合注意力头模型。值得注意的是,MoH-LLaMA3-8B 仅使用 75% 的注意力头,就能在 14 个基准测试中实现 64.0% 的平均准确率,这比 LLaMA3-8B 提升了 2.4%。

这些实验结果表明,混合注意力头模型是一种极具潜力的多头注意力替代方案,能为开发更先进、更高效的基于注意力的模型奠定基础。既能降低计算成本,又能维持模型性能......

追加内容

本文作者可以追加内容哦 !