国产大模型的进步速度正在被刷新

今年 1 月讯飞星火 V3.5 发布时整体水平已经十分接近 GPT-4 Turbo 且多方测评表现优秀仅半年后讯飞星火 V4.0 就完成了从接近到超越

6 月 27 日科大讯飞在北京发布讯飞星火大模型 V4.0 及相关落地应用并宣布七大核心能力全面升级整体超越 GPT-4 Turbo新立场照例对其进行了从底座能力到产品应用的全方位测评

先看决定了 AI 功能范围和应用深度的底座能力我们参考了发布会公示的外部权威测试集测试结果在国内外 12 项大模型主流测试集中讯飞星火有 8 个测试集横向比较排名第一超越 GPT-4 TurboClaude 3 Opus 等国际大模型综合表现堪称国内最强

以表现最突出的中文语言理解为例我们从历年公务员考试行测题库中选取了一道言语理解与表达真题

海军舰艇中的军辅船是大洋上的粮草官虽不具备强大作战能力却直接关系着远洋保障但是目前中国仅有四艘综合补给舰在海军服役维持日益_____的远洋训练护航和演习显得有些______

依次填入划横线部分最恰当的一项是A.漫长顾此失彼B.复杂无能为力C.繁重捉襟见肘D.艰苦苦不堪言

参考答案是 C讯飞星火给出了完整的分析逻辑和正确答案底座能力够强给产品设计提供了更大的发挥空间

一组最新数据显示自去年 9 月全面开放以来讯飞星火 App 在安卓公开市场累计下载量达 1.31 亿次在国内工具类通用大模型 App 中排名第一今年 618 期间星火大模型加持的智能硬件销量同比增长超 70%月均使用次数超 4000 万

这意味着作为 C 端门面的讯飞星火 App 已初步累积起了市场认可与用户心智由此再看本次发布会的重头戏——产品打磨的最新进度新立场认为个性化是理解讯飞星火本轮产品迭代的关键词

围绕工作学习和健康生活等用户所关注的具体场景新上线的个人空间在千篇一律的同质化生成中提炼出了个人数据的价值消费者对大模型底座能力的感知因此更加具象化

大模型的底座能力提升拔高上限个人空间打造强化细节进而能在办公教育等应用落地中有更为进阶的表现二者的逻辑关联是顺承且自然的

01从同质化生成中提炼个性化价值

从市场表现来看用户对 AIGC 的热情颇高QuestMobile 数据显示2024 年 1 月TOP10 AIGC App 聚合活跃用户规模达 5376 万同比增长 3725%且 TOP10 App 去重用户规模同比增长 37 倍

需求高涨的同时同质化问题隐现大厂都在押注大模型Top 10 里面除了讯飞星火百度的文心一言抖音的豆包昆仑万维的天工都在过去一年里经历了月活迅速攀升但其应用基本都聚焦在文本和图像信息模态生成不夸张的说打开不同的 App 交互页面呈现出是千模一面的景象

各家生成内容差不多且不够实用的情况下大模型 C 端应用在消费者侧有丧失辨识度的风险解题方法是仍然回到 ToC 产品设计逻辑中个人用户的需求为出发点从做通用助手到做个人助手这也是为什么新立场认为个性化是本次讯飞星火迭代的底层逻辑

成为个人助手 的前提是充分了解个人科大讯飞董事长刘庆峰在发布会上表示AI 助手要能够基于用户画像进行个性化表达基于使用历史进行记忆学习基于个人资料进行增强学习所以为用户数据建库以个人数据训练个人模型是 AI 助手工作的第一步也是生成连贯和专属内容的前提

改版后的讯飞星火 App 及桌面版中用户可以在个人空间上传自己的工作学习生活健康等各类资料形成个人专属的知识库同时在个人设置界面可以自行调适AI 人设AI 也会根据过往对话和历史动态让生成内容与个人风格靠近以此跳脱千篇一律的生成

此外App 及桌面版的个人中心入口则是为大模型提供的各项实用功能做一个总控台从中可以触达人设标签日程管理信息订阅创建发音人等各类个性化和趣味化的服务此处需要特别提到个人中心可以直达的智能体功能首批上线的 14 个的智能体各自面向特定场景打造专属助手

新立场编辑部尝试让不同的作者通过上传自己的文章创建定制的智能体星火所生成的内容各不相同且可以看到表述和语言风格上各自的差异当我们添加更多维度上传更多个人录音数据表和文稿整个智能体变得越来越易用和个人化

结合发布会信息目前星火大模型的产品布局在往纵深向发展广度上全系讯飞 C 端软硬件产品生态已经打通数百万智能硬件用户可一键拥有星火全家桶像此前的明星产品如讯飞智能办公本智能录音笔用户数据都可以一键同步到星火个人空间方便用户更快搭建个人空间

深度上有更强底座的加持多款产品都更新了功能突破的进度比如星火语音大模型发布会上针对强干扰场景下的语音识别问题测试堪称惊艳三位讯飞研究院的研究员在现场噪音场景下同时混叠着说话人耳无法听清的声音讯飞星火却实现了重叠语音分离实时转写语录

再加上提炼出了个性化这一关键词强化底座能力+调整设计更多个性化功能或将成为未来科大讯飞产品迭代的主旋律

我们已经能在讯飞星火 App/Desk 上体验个人助手的魅力一些更垂直的落地场景比如急需依靠大模型提高生产力的工作环境或是对智能化有需求的教育和日常生活同样经历了类似的革新

02职业的办公个性化助手

QuestMobile 数据显示AIGC App 在工作日周一至周五期间的活跃度高于休息日周六周日由此推测现阶段 AIGC App 与办公场景的适配性更强这也符合高维技术到效率工具的自然转换

新立场想要测验的重点是讯飞星火能否真正融入工作流而不仅限于提供一个办公模板由此我们将测试分为三个方向去检验讯飞星火是否考虑到实际工作流程中的细节

其一看是否贴近工作实用此处的实用是指在常见的大模型内容生成中容易出现模版化的结果即套用固定格式和叙述语调生成一篇僵化的八股文这样的内容完全无法作为工作结果交付

所以我们选用了讯飞星火 Desk 中述职报告小能手这一成品智能体AI 给到的提示是填写工作目标策略和成果概述小助手会给出供参考的述职报告

我们给出的提示语段包括我是一名销售经理今年的工作目标是实现销售额 3000W回款率达到 50%并且组织 5 场以上客户活动获取有效商机不少于 20 个报告中要重点突出策略的部分

上图是讯飞星火反馈的结果部分截选一份带有个人工作内容的报告格式与行文规范准确的同时针对本年度工作目标详细阐述了策略实施设计我们又根据这个结果调用了讯飞智文智能体一键生成了一份完整的述职报告 PPT

目前讯飞星火的智能体中心有包含职场创作学习编程等多个实用方向的成品智能体且支持自由创建在这一层面其实用性可以说是独树一帜的这些都是源于复杂指令理解逻辑推理和内容生成等底座能力的提升使交付内容更显专业

而关于如何使交付内容更具连贯性符合组织操作流程结合前文对个人助手的开发讯飞星火贴近个人习惯这一进阶方向有一些独特表现

此处的个人习惯一是指用语在邮件致辞作文等日常向写作中作者的职业身份立场或口径都会影响到成文的笔调而且这些笔调往往凝聚了该项目最关键的信息二是指个人过往作品所累积起来的素材库在工作中时常需要反复调用这两点在前文对个人空间的测评中已有体现都是版本更新后的讯飞星火所擅长的领域

最后再看我们在 App 上处理的工作内容能否形成固定的周期与日程最新版本的个人中心基本实现了这一功能AI 会帮助我们管理代办日程订阅指定新闻如果你详细设置过你的 AI 人设声音和智能体以上所有测评到的定制化办公辅助功能都可以通过个人中心一键调用

办公场景很好地体现了在底座实力之上对个人数据的极致利用如何让效率工具变得更实用更易用

新立场编辑部的日常工作中有时也会使用各种 AI 工具辅助查找资料数据等等但受限于同质化的生成与分散的功能一直没有找到一款能够连贯使用的办公助手就本次实测来看讯飞星火找到了职场打工人的痛点而在更加精深的教育与医疗场景底座能力+个性化的公式同样适用

03教育功能进阶从抓住场景痛点开始

作为人工智能国家队科大讯飞在教育领域深耕多年成绩颇丰提出过精准教学学情分析个性化学习等超前的人工智能教育理念

去年双十一期间星火大模型加持下的科大讯飞 AI 学习机首次碾压小度步步高希沃作业帮等品牌拿下京东&天猫学习机品类销售额桂冠今年 6 月科大讯飞相关负责人表示自 2023年 5 月首次升级大模型功能以来科大讯飞 AI 学习机持续保持高速增长势头今年 1-5 月份销量增长超过 150%

今年高考结束后新课标 I 卷作文题目关于人工智能的思考引发关注重庆日报在相关报道中使用了讯飞星火生成了一篇可圈可点的高考作文可以看到星火无论在文章逻辑还是语言措辞上已经达到高分作文的水准

来源重庆日报

实际上教育垂类产品 AI 学习机一直在随着大模型底座版本迭代本次发布会也提到最新版本的 AI 1对1 答疑辅导功能既能进行多模态启发式讲解自由问个性化解答也可以进行互动探究式学习超拟人引导式伴学等

但结合多位学科教师的意见我们更关注本次首发的星火智能批阅机为集智能批改精准学情个性学习于一体支持自由排版多学科多题型智能批改多维学情报告生成可为老师作业讲评和面批辅导提供素材

新立场认为减负是近年来教育领域的高频词汇但各类教育硬件以为学生减负为中心设计产品时教学减负的关注度可能有一些欠缺而实际上减负应该是双向的

在我们与高中数学语文政治教师的交流中点拨是最常出现的关键词无论哪一个学科日常教学里学生都得经历一个由量到质的转变堆量是必要的前提老师在关键之处为学生解惑针对不同学生进度点拨那几句话就要依赖于教师多年积累的教学经验

但在必要的堆量过程中大量练习测验需要人工批改才能让学生在训练中查漏补缺点滴进步这类繁琐重复又需要一定教学经验的工作恰好是 AI 最应该介入的环节现场演示中星火智能批阅机模拟了真人笔迹在半分钟内完成了 15 份学生作业批改并且提供了班级整体报告之外每位学生的基础知识和学科能力掌握情况

这便是基于学科教育多方需求的个性化改造有 AI 的加持这种双向减负一边解放了教师的生产力让他们可以有更多时间投入到专项教学掌握班级教学进度一边减轻了学生获取针对性教学资源的难度让他们能随时获得反馈管理自己的学习进度

不得不说就星火智能批阅机中我们能看到的产品思路科大讯飞对教育场景的理解确实要领先行业平均水平一个身位

04写在最后

6 月 27 日的发布会其实是一场大模型产品的大点兵科大讯飞的产品矩阵远不止于上述提到的内容

C 端产品的精品化打磨体现在每一条产品线讯飞晓医 App 的升级同样是有底座能力提升带来的各项服务的覆盖深度和广度升级又有承接上文的个性化产品设计理念上线个人数字健康空间功能

最新版的讯飞晓医 App 能够根据电子病历检查报告体检报告等用户个性化资料构建个人数字健康空间在此基础上AI 给出的病症原因剖析用药禁忌前后检查数据对比更有针对性

另一边B 端产品同样有亮眼表现大模型的行业运用相比消费端更需要考虑供需搭配和性价比的问题因此刘庆峰认为企业首先要科学地认识大模型能力的边界根据任务难度选择合适方案并且用更少的算力更高的效率打造企业专属大模型

基于这个逻辑个人应用中提到过的智能体在 B 端升级为星火企业智能体平台主打调用底座能力集成外部信源打通内部 IT 系统供企业即插即用这是企业层面的定制与个性化

无论 ToB 或 ToC其实讯飞星火的每一次升级都在朝着更实用的方向进化只是最新的发布会围绕底座能力和个人助手揭示出了一条更为清晰的发展线索新立场在实测中不止一次的感受到智能因个人数据的参与更加具象化过往相对抽象的大模型能力在个人助手一次次的文稿生成语音识别和智能体问答中靠近我们的工作与生活

大模型已经到了热度消退理性居上的时刻能够让 AI 为人所用才是当下发展的目标



追加内容

本文作者可以追加内容哦 !