8月29日,智谱AI发布了新一代基座大模型GLM-4-Plus,并宣布推出国内首个面向 C 端开放的视频通话功能。智谱不仅在语言文本、视频理解等多个能力角度与OpenAi旗下的GPT-4o通过评测数据进行对比,更是在视频通话功能的演示视频中,实现了对GPT-4o的“像素级对标”。
下文中,左图为Open AI,右图为智谱,两者不仅拍摄构图高度一致,功能演示顺序同样“亦步亦趋”。
首先演示图像识别,不同的是,GPT-4o是一道数学题,需识别方程式,智谱AI则是一道语文题,看图猜成语。
第二部分是图表分析,GPT-4o是单纯的图表,智谱的图表上下有大量文字解释。
第三部分是宠物互动,GPT-4o是狗,智谱是猫。
第四是教育场景,两者都演示了几何题的解答和互动。
既然是对标Open AI,以“依葫芦画瓢”的方式制作一则功能演示视频无可厚非,但智谱AI开启内测后,还是让不少获得内测机会的网友感受到了“卖家秀”与“买家秀”的差距。
网友在实测过程中,多次出现“失联”状况,一度超过5秒钟无响应,需用户一再唤醒。最离谱的是,画面中带有“智谱”字样的智谱官网首页居然被错认成商汤科技的官网,网友直呼“AI小智认错父亲”。
归根结底,智谱尽管在功能演示上下足了功夫进行“像素级对标”,但在核心技术上没有采用与Open AI同样的技术路径,即“端到端”。传统的人工智能交互是模块化的,就是我们熟知的“感知、决策和执行”三大模块。而“端到端”就是把三个直接变成一个,从传感器数据输入开始,中间只要一步,到控制信号输出,将输入直接映射到输出,实现完整闭环。
OpenAI正是采用端到端训练的GPT-4o,才带来快速流畅的人机对话体验以及极高的多模态识别准确度,又快又准正是端到端的核心优势。
而智谱AI在新功能的介绍中,并未提及“端到端”。
从2月份特斯拉自动驾驶领域掀起端到端风暴,到Open AI的GPT-4o采用端到端带来的多模态惊艳演示,端到端已经成为AI领域备受推崇的技术路径。
4月,商汤推出端到端自动驾驶解决方案,6月30日发布的中期业绩报告显示,商汤“绝影”收入翻倍增长,上半年新增量产交付70.5万辆车,参与多个中国车企的出海项目,国际影响力日益凸显;端到端自动驾驶解决方案UniAD完成高难度下实车测试,展现了强大的智驾实力。
6月,苹果宣布推出 Apple Intelligence,将生成式AI模型置于iPhone和iPad的核心中,根据个人的情境来提供智能的协助。据称,苹果设计了一种“全新的端到端AI架构”。
端到端并不是新鲜的技术方案,最早应用于网络通信领域,经过计算机视觉、自然语言处理和机器学习领域得一再验证和优化,如今已成为生成式人工智能领域核心技术路径之一。智谱AI并未采用Open AI所引领的端到端技术路径情况下,便与其“全面对标”,难免有“东施效颦”之嫌,出现卡顿、延迟、识别误差大等一系列交互体验问题也就不足为奇。
还在技术演示上做文章的Ai公司已经越来越少,无论Open Ai还是正在经历“百模大战”的国产Ai企业,如今早已进入“落地为王”的阶段。打造C端超级应用,又或是深入真实业务场景为企业端AI赋能,才是如今AI企业展示实力的真实战场。
本文作者可以追加内容哦 !