01

让AI参加高考,没成想直接翻车了!

在最新进行的高考全卷能力测试中,人工智能大模型的表现引起了广泛关注。

近日,上海人工智能实验室旗下的司南评测体系OpenCompass发布了对7个大模型进行的高考“语数外”全卷评测结果。

结果显示,尽管这些大模型在语文和英语科目上表现不俗,但在数学科目上却普遍不及格,暴露出在复杂推理能力方面的不足。

在满分420分的测试中,阿里巴巴的通义千问2-72B模型以303分的成绩排名第一,OpenAI的GPT-4o模型以296分紧随其后,而上海人工智能实验室的书生·浦语2.0模型则以295.5分位列第三。

这些大模型的得分率均超过了70%,但数学成绩最高仅为75分,由书生·浦语2.0获得,显示出在数学复杂推理方面还有很大的提升空间。

这是个什么概念?

150分的总分,考试75分的水平,整体上也就相当于一个不及格的水准。

值得一提的是,该测试涵盖了来自不同国家的多个大模型,包括开源和闭源模型。此外,为保证公平性,评测未纳入商用闭源模型,仅将GPT-4o作为参考。所有参与测试的模型均在高考前开源,避免了“刷题风险”。

上海人工智能实验室领军科学家林达华指出,复杂推理能力对于大模型在金融、工业等高要求场景中的应用至关重要。目前,大模型在客服、聊天等场景中的应用较为广泛,但在严肃商业场合的应用则受限。

评测过程中,所有答卷均由具备高考评卷经验的老师匿名人工判分,且阅卷教师在阅卷前未被告知答卷由模型生成。此外,为确保评分的准确性,每个题目都邀请了至少三位老师评阅,并取均分,对于分差较大的题目还进行了再次审核。

在语文科目中,模型的现代文阅读理解能力普遍较强,但文言文阅读理解能力差异较大。作文方面,模型的表现更接近于问答题,缺乏修饰和论证手法。数学科目中,模型的主观题回答凌乱且具有迷惑性,公式记忆能力强但应用不够灵活。英语科目整体表现良好,但部分模型因不适应题型而在某些题型上得分率较低。

此次评测不仅为大模型的能力提供了一次全面检验,也为模型的进一步优化和发展提供了宝贵的参考。随着人工智能技术的不断进步,期待未来大模型能在更多领域展现出更加卓越的能力。

02

在言叔看来,目前大模型普遍存在短期被高估,长期被低估的情形。

AI的本质是大模型,是算法,算力以及数据。

短期被高估的原因在于,今天市面上的大模型,虽然有很多落地案例,但能创造实际价值的场景并不多,大多是传统数字化转型的附属品。

在这场AI革命中,数据的价值可以说不容忽视。

数据作为AI的“教材”,是训练算法、提升AI学习能力的基础资源。高质量的数据对于深度学习算法的训练至关重要。随着数据要素市场化的推进,数据采集、确权、定价和交易等环节将逐步完善,数据要素产业链将迎来群体性突破。

但现在AI基本都面临着同样的问题,就是数据要素的产业链,还处于积累阶段,只有达到了一定的数量后,才能引起质变。

从这个角度来看,我觉得我们正站在一个新时代的门槛上。

从长远角度来看,AI和数据不仅代表着技术的未来,也是数字经济时代的宝贵资产。社会各界应充分认识到数据的重要性,并积极拥抱数字经济带来的变革。

03

在言叔看来,目前大众对AI大模型,其实还是有一定误解。

这个误解的地方在于,认为AI大模型只是一个短期的技术热潮,而忽视了它作为一种基础性技术变革的深远意义。

实际上,AI大模型的风潮非但没有消退,反而正以前所未有的速度向我们逼近。

正如个人电脑和互联网的普及彻底改变了我们的生活方式一样,AI大模型正逐渐从科研机构和大型企业的专属工具转变为触手可及的通用技术。

可以预料的是,大模型可能就像今天我们使用的Excel、Word或Photoshop一样普及,成为日常办公和创意表达不可或缺的一部分。

而随着这一趋势的发展,不少行业将迎来巨变改变,不过这一时间可能最少需要5~10年,它需要算力、算法、模型的迭代跟积累。

比如,可能到一定阶段,可能不再不再需要深入掌握复杂的编程知识,就能通过直观的界面与大模型互动,完成从前难以想象的任务。

再如自动化数据分析、即时多语言翻译、个性化内容创作等,这些工作,其实本质上都可以让AI替代。

言叔有些感同身受的是,比如现在言叔去参加重磅活动,以前可能比较依赖速记,现在各种AI大模型,基本都可以做到实时翻译了,请速记的钱都给省了。

推动这一进程的关键在于,我们要致力于将大模型AI从“高大上”的神秘光环中解救出来,让它成为接地气、服务于民的实用工具,言叔预料这就是这几年的事。

市场规模和格局的自然变动 | 理论模型


这意味着对开发AI工具的企业来说,要尽可能降低使用门槛,提升用户体验,让大模型能够无缝融入人们的日常生活和各行各业的实际应用场景中。

面对AI大模型即将带来的变革,作为一个见证者,我觉得我们能做的就是应积极调整心态,从被动接受转为主动学习和应用。同时,社会各界,包括政府、企业、学术界和公众,都应共同努力,构建一个健康、可持续的AI生态系统,确保技术发展与社会伦理、法律法规同步,让大模型AI真正成为推动社会进步的正能量,惠及每一个人,每一个角落。


追加内容

本文作者可以追加内容哦 !