$全志科技(SZ300458)$  如果Groq 是正确的,那边缘计算的作用将提高到与核心大模型相同的地位。

根据Groq官网白皮文档,Groq LPU的先进源于其设计理念的独立,部分放弃卷积的设计,专注于矩阵X向量 、 矩阵X矩阵计算。芯片的核心是矩阵乘法单元,矩阵引擎通过具有320个元素的向量进行操作。浮点运算中一对字节平面(byte planes)协作产生一个FP16的输出。 芯片的中间是矢量执行模块(VXM,vector execution module)。

Groq ASIC芯片通过放弃灵活性和训练性能获得推理性能大幅提升:其对大模型的定制化编译,大幅提升推理速度, LPU 运行编译后的LLM代码,执行生成AI推理应用程序。编译器提供可预测的工作负载性能和计时。 


ASIC芯片在成本优势主要体现在内存:

根据Groq创始人采访,与GPU不同,LPU只有一个核心,创始人称之为TISC或时间指令集计算机体系结构。它不需要像GPU那样频繁地从内存重新加载。因此采用SRAM而非昂贵的HBM。目前Groq API推理Mistral的定价低于其它32K 上下文长度GPU 定价。 


更多芯片互联势必带来网络架构进一步升级:

根据Groq官网白皮书,Groq采用蜻蜓拓扑来完全连接机架内的八个全局节点集,系统中可连接多达145个机架,从而实现超过10000 TSP的总可扩展性,势必带来光模块用量的持续提升。 

边缘推理成本时延有望进一步突破,应用有望快速爆发:

我们认为相比HBM,SRAM设计下的ASIC芯片有望在边缘端实现更低成本下的快速,灵活的推理,在语音交互,图片和视频生成等场景逐步提供与用户需求匹配的体验,从而带动AI应用进一步快速渗透与迭代。

如果实现ASIC既能够实现专门的AI计算,代表人工智能的计算逻辑并非一种,未来很有可能依靠多个ASIC实现英伟达同级别的效果。

追加内容

本文作者可以追加内容哦 !