近年来,大模型能力的快速迭代加速了对话式AI不断向各行业、各领域迅速渗透。大模型在处理复杂语句理解、上下文语义衔接、错误内容纠正、质疑不正确假设、拒绝不合理需求等任务时,均具备良好表现。为进一步推动大模型应用落地,促进对话式人工智能技术发展,中国信息通信研究院(以下简称“中国信通院”)人工智能研究所联合业界单位共同编制了《基于大模型的智能应用评估方法 第2部分:智能对话》标准。
6月12日,南威软件集团参与中国信通院组织的首轮可信AI大模型智能对话专项评估(以下简称“智能对话专项评估”),南威白泽行业大模型顺利通过各项检验并获得4+级证书,成为国内首家通过该项评估并获得当前最高评级的企业。本次评估依据《基于大模型的智能应用评估方法 第2部分:智能对话》标准,共计4个能力域,21个能力项。
“南威白泽行业大模型”可信AI评估证书
参与本次符合性验证的南威白泽行业大模型在对话功能、对话性能、对话体验和对话场景四个模块上均表现优秀。对话功能方面,模型覆盖多模态交互、第三方数据接入、用户私有资源定制、情绪安抚、对话干预等多种功能点,可为用户量体裁衣,提供多元化技术支撑。对话性能方面,模型满足单轮对话、多轮对话、语义理解、响应时间等标准指标要求,准确性和响应及时性良好,可保障模型对话的质量。对话体验方面,模型的回复专业性、可读性、相关性、拟人度等指标优秀,可提升用户使用体验。对话场景方面,模型具备丰富语料库,可服务生活闲聊、主题对话、百科检索、数学问答等多样化细分应用场景。
“南威白泽行业大模型”产品架构
南威白泽行业大模型,作为城市数字化建设的强力助手,致力于构建推动城市智慧发展的新引擎,是南威在行业领域深耕细作的重要结晶。该模型结合了百万级真实行业对话数据,采用了先进的大模型框架,目前已初具规模,具备在政务、司法、城市治理、审计、公安、监管、营商、办公等多个垂直细分领域提供服务的能力。该模型在海量数据处理和模型优化方面体现了先进性和高效性,可为各行业发展提供有力支撑。
【可信AI智能对话专项评估介绍】
可信AI智能对话专项评估围绕对话功能、对话性能、对话体验、对话场景,为大模型对话能力评估提供全面、安全、可靠和准确的规范和指导。
(一)对话功能:关注大模型所支持的对话功能,包含多模态交互、第三方数据接入、用户私有资源定制、格式解析能力等,评估大模型对话功能的全面性和应用灵活性。
(二)对话性能:关注大模型所支持的对话性能,包含单轮对话、多轮对话、对话干预、对话引导等,评估大模型对话准确性、完整性和响应及时性。
(三)对话体验:关注大模型所支持的对话体验,包含回复专业性、回复可读性、回复相关性、回复满意度等,评估用户对话体验。
(四)对话场景:关注大模型所支持的对话场景,包含生活闲聊、主题对话、百科检索、数学问答等主题,评估大模型的应用场景覆盖度。
评估范围
本次评估结果充分彰显出南威软件集团在AI大模型智能对话领域的前沿技术水平,并为公司未来的技术优化与业务拓展提供了新的方向。南威软件集团将持续深化大模型领域的研究和应用,紧密贴合市场需求动态,不断提升产品与服务质量,力求为用户带来更加完善的交互体验。
内容来源:中国信通院“可信AI评测”公众号
点击左下角“阅读原文”可见
-END-