近日,科大讯飞股份有限公司参与中国信通院基础大模型-模型应用模块标准符合性验证,其自主研发的讯飞星火大模型4.0 Turbo顺利通过评估,并最终获得5级评级。此次验证,依据《大规模预训练模型技术和应用评估方法 第4部分:模型应用》开展,包含应用丰富度、应用灵活度、应用成熟度等3个能力域、30余个能力项,应用丰富度关注大模型的模态支持度、任务支持度、行业覆盖度和场景适配度,能力支持度重点考察大模型的个性化服务和多样化管理能力,应用成熟度全面评估大模型的效果优越性、服务可靠性和服务配套性。

科大讯飞于2023年8月参与基础大模型首个模块评估,截至目前,已顺利完成模型开发、模型能力、模型运营、模型应用和可信要求五个模块的评估,成为首家通过基础大模型全能力域评估的企业。

截至目前,中国信通院已累计为22家企业提供41项基础大模型评估服务。为进一步促进技术提升、扩展应用效能、辅助产品选型,中国信通院持续开展基础大模型评估工作,评估依据《大规模预训练模型技术和应用评估方法》系列标准,分为模型开发、模型能力、模型运营、模型应用、可信要求五个模块。

1、模型开发

关注大模型开发阶段,包含数据构建、模型构建、模型管理、模型部署共4个能力域、29个能力项,全面评价研究主体开发大模型的能力。

2、模型能力

关注大模型具体能力,包含智能语义、智能视觉、智能语音、跨模态、服务稳定性等5个能力域、40个能力项,全面评价大模型的各项技术能力及产品服务。

3、模型运营

关注大模型工程化阶段,包括数据工程、模型调优、模型交付、服务运营、平台能力共5个能力域,面向大模型平台或工具展开测试。

4、模型应用

关注大模型落地应用阶段,围绕行业覆盖度、场景适配度、任务支持度、个性化服务、多样化管理、效果优越性等评价大模型应用能力。

5、可信要求

关注大模型的可信能力,包含基础软硬件可信、数据可信、模型可信、应用可信四个能力域。

依托认知智能全国重点实验室的技术和应用积累,以及成建制的研发团队,2023年5月6日,科大讯飞正式对外发布讯飞星火大模型(以下简称“讯飞星火”)。2023年10月24日,科大讯飞与华为联合发布了国内首个全国产算力平台“飞星一号”。2024年10月24日,基于全国首个国产万卡算力集群训练的全民开放大模型讯飞星火4.0 Turbo正式发布,根据真实数据背靠背的测试,七项核心能力在中文领域全面超过GPT-4 Turbo,代码能力和数学能力超越GPT-4o;在艾伦人工智能研究所、OpenAI等权威机构发布的14项主流测试集中,讯飞星火4.0 Turbo实现对美国三大主流模型(GPT-4o、Claude 3.5 Sonnet、Gemini 1.5pro)的9项超越,效率相对提升50%;同时,国产超大规模智算平台“飞星二号”正式启动。

讯飞星火具备文本生成、语言理解、知识问答、逻辑推理、数学能力、代码能力、多模态等七大核心能力。其从海量数据和大规模知识中持续进化,帮助用户实现从提出、规划到解决问题的全流程闭环。讯飞星火整体布局为“1+N”体系,其中,“1”是指通用底座大模型;“N”是指大模型在教育、医疗、金融、汽车、运营商、工业等各个领域的落地。

*文章来源:可信AI评测

追加内容

本文作者可以追加内容哦 !