大模型处于行业领先水平。Yan架构核心原理包括MCSD(multi-channel slope and decay)和基于仿生神经元驱动的类脑激活机制等。鉴于Yan1.2为多模态模型,为便于评测比较,岩芯数智将Yan1.2的核心模块即自然语言部分MCSD 3B模型,采用5-shot测试方法,与Llama3 8B模型、Pythia 2.8B模型、Mamba 2.8B模型、RWKV4 3B模型这4个典型自然语言模型进行了比较。岩芯数智将5个模型分别对ARC-C、ARC-E、WinoGrande、MMLU、Hellaswag 5个基本任务进行评测,MCSD 5个基本任务评测平均分为53.5分,高于Phthia(48.6分)、Mamba(52.4分)、RWKV4(49.1分),低于模型更大的Llama3(75.0分)。

追加内容

本文作者可以追加内容哦 !