Yan架构大模型创新之MCSDYan架构采用MCSD(Multi-ChannelSlopeandDecay)替换Transformer架构中O(n^2)的Attention机制,并成功验证了ScalingLaw机制。MSCD方法摒弃了传统的注意力机制,通过“多通道斜率”与“多通道衰减”的结合,提供了一种全新的视角去理解复杂的数据结构,减少了模型计算量,不仅提升了模型的响应速度,还降低了能耗和资源占用情况。 (2)Yan架构大模型创新之类脑激活机制类脑激活机制,既可以应用在单模态也可以应用在多模态上,在最初会初始化若干神经元参数,每个数据样本在训练或推理的时候,都会通过仿生神经元的选择驱动算法,选择与本数据样本相关的神经元参与运算,这意味着每次的迭代训练和推理,并不是每一个参数都会参与计算,尤其在训练时,这种方法会极大的降低算力。

追加内容

本文作者可以追加内容哦 !