DeepSeek-V3,LLM的大规模推理时刻已来
深度学习的发展历程呈现出明显的迭代规律。2012年AlexNet的诞生开启了图像分类网络的新纪元,随后VggNet、GoogleNet相继问世,直至2015年ResNet的出现标志着图像骨干网络架构的基本成熟。2016年Yolo网络问世,经过三年迭代到Yolo-V3,整合了分类网络的关键技术,实现了高效的检测能力。这一时期,云端推理芯片以ResNet-50的推理速度为性能标杆,而端侧SoC则普遍以Yolo-V3的高帧率推理为主要指标。
在YoloV3出现之前,市场上虽有MobileEye等商用目标检测产品,但闭源特性限制了市场发展。这些商业公司为维持高毛利,既无动力推动硬件降本,也无力促进下游应用繁荣。YoloV3的出现为芯片设计提供了明确目标:只要能高效低功耗运行YoloV3,就能获得相应市场。此时,视觉CNN网络架构已趋稳定,芯片行业也积累了相关设计经验。2018年,瑞芯微的RK3399Pro率先实现边缘端运行YoloV3最小版本,随后海思、晶晨、地平线、黑芝麻等厂商相继跟进,推动了安防、工业自动化、智能仓储、扫地机器人乃至自动驾驶等领域的应用生态发展。
展望DeepSeek-V3时代,虽然英伟达仍是推理芯片领域的领导者,但CSP厂商的ASIC AI芯片研发进展缓慢。这主要源于模型需求的复杂性,即便是与模型厂商关系密切的CSP也难以准确把握,更不用说外围的芯片设计公司。当前,预训练时代已基本结束, Claude-3.5-Sonnet作为LLM的代表,DeepSeek-V3与之处于同一水平。因此,只要能以具有竞争力的推理性能和功耗表现解决 DeepSeek-V3的推理需求,就能开发出可大规模商用的LLM推理芯片。可以预见,明确的目标将催生多厂商、多种推理芯片的涌现。
从应用角度看,DeepSeek-V3将带来显著变革。此前,虽然闭源大模型厂商提供微调服务,但空间有限,且应用厂商对使用私有数据微调模型存在顾虑。DeepSeek-V3的出现(可能还包括轻量版V3-Lite),将支持私有部署和自主微调,为下游应用提供远大于闭源模型时代的发展空间。
综上所述,未来一两年内,我们必将见证更丰富的推理芯片产品和更繁荣的LLM应用生态。利好励飞
追加内容

本文作者可以追加内容哦 !