$商汤-W(HK|00020)$  

6月22日从商汤科技获悉,公司近日公布了自研中文语言大模型“商量SenseChat 2.0”在MMLU、AGIEval、C-Eval三个权威大语言模型评测基准的成绩。根据评测结果,“商量SenseChat 2.0”在三个测试集中表现均领先ChatGPT,部分已十分接近GPT4的水平。

MMLU是由美国加州大学伯克利分校、哥伦比亚大学、芝加哥大学及伊利诺伊大学厄巴纳-香槟分校联合打造的大规模多任务语言理解的评测基准,涵盖了科学、技术、工程、数据,人文、社会科学等领域的57个科目,难度从初级水平到高级专业水平,考验世界知识和解决问题的能力。在该评测中,“商量SenseChat 2.0”综合得分为68.6,远超GLM-130B(45.7分)的得分,同时还超过了

追加内容

本文作者可以追加内容哦 !