这个周末讨论的最火的应该就是幻方旗下的deepseek-V3大模型。我也来具体说一下对这件事的认识。模型一出世,便被AI圈大佬们疯狂点赞,可见其国际认可度非常高。接着这个模型便被吹成了国货之光,什么英伟达的颠覆者。吹的越来越过头了,直到当事人亲自下场澄清。这个模型的问世确实值得称颂,很大程度上是因为它从另一个维度打破了英伟达的算力神话-AI的发展不是只有堆积算力一条路,deepseek-V3已经向我们证明通过系统和架构的优化创新可以极大缩小算力的硬件差距。同时意味着我们在发展AI的道路上可以通过更少的能源消耗和资源投入追赶甚至超过对岸AI的发展水平,这才是deepseek-V3所带来的核心价值。接下来,从炒股的角度来说一下这件事的炒作点。各类文章介绍中讲到大模型能取得如此成果的一个核心要素就是MLA 和MoE架构。MLA全称Multi-Head Latent Attention,中文翻译就是多头潜在注意力机制,通过系统架构的优化创新来弥补算力不足带来的训练和推理差距。南威软件在人工智能方面,人工智能方面,基于多头注意力机制和增强特征金字塔方法,掌握了新型的生物认证技术,这与幻方量化在人工智能领域的探索和应用有一定的关联性,未来可能在技术合作或业务拓展上存在机会。每日互动虽然与幻方有直接关联,但是题材想象力上南威软件显然更胜一筹。最后,一切交给市场。
追加内容

本文作者可以追加内容哦 !