$岩山科技(SZ002195)$  首先、当今主流的 AI 模型和产品都是基于Transformer 架构。Transformer 在Seq2seq领域提取知识的主导地位至今无人能撼动。现在国内的AI 模型大多基于Transformer,但是说到超越国外的成熟公司是太难了。跟在后面搞开发就像看见别人搞了个超市赚钱了,你也开超市,大家都开一样。最后头部企业渐渐分开梯队。

其次、 Transformer 的强大之处同时也是它的弱点:Transformer 中的自注意力机制本身具有二次复杂度,这种复杂度使得该架构在涉及长输入序列或资源受限情况下计算成本高昂且占用内存。资源受限最终产生就像芯片受制于摩尔定律类似的瓶颈。Transformer 的瓶颈或许还是在生成序列长度更长的领域,像 OpenAI 一样不怕花钱,可以继续推高 Transformer 的 scaling law,但问题在于序列每长两倍就要花四倍的钱,花的时间也是四倍,平方级别的增长使 Transformer 在长序列问题的处理上效率太低,而且资源有上限。

第三、听信了几个业内大佬的话

1、为这个世界本身就不是基于 Transformer 的逻辑去做推理来运转的,这个世界的运转规律是基于类似 RNN 结构的——这个世界的下一秒,不会跟你过去所有的时间、所有的信息相关联,只会跟你的上一秒相关联。而 Transformer 要辨认所有的 token,这是不合理的。——彭博

2、说传统Transformer架构大模型并不是AGI的最优解呢?刘凡平解释道,虽然市面上大部分模型都具备理解表达能力,但几乎还没有选择遗忘和自主学习的能力。而群体智能单元大模型兼具这3项核心能力,底层逻辑更类人脑,也更接近AGI。

3、这个世界需要比Transformer更好的架构,我们所有人都希望它能被某种新架构所取代,将我们带到一个新的性能高原。现在,我们使用了过多的计算资源,也做了很多无用的计算。《Attention is All You Need》作者Aidan Gomez


岩山科技市场有分歧也是正常的表现。

目前能够确定的,是 Transformer 形成的垄断很难被打破,无论是从资源还是生态,当下的非 Transformer 研究都比不过。目前研究大模型非 Transformer 新架构的团队,要么在学术界,要么是如 RWKV 这样的创业团队,很少有大公司投入一个大的团队来研究新架构,所以在资源上,跟 Transformer 相比,非Transformer 研究的差距还很大。

以后有机会对比一下其他非 Transformer架构模型的几家公司。

短期内投资方向算力资源基础设施建设几何式增长毋庸置疑。

追加内容

本文作者可以追加内容哦 !