大模型的能力密度平均每百天翻一倍,两三个月后就会出现替代模型。今天举行的首届浦江AI学术年会“大模型与超级智能”专题论坛上,专家指出,大模型能力密度正呈加速增强趋势,而密度倍增周期决定了模型存在的“有效期”,要尽量在该周期内实现模型的应用价值。
在比摩尔定律更为“残酷”的密度倍增周期的倒逼下,科学家和企业家正通过人工智能(AI)科学化、为大模型培育复杂推理能力、多模态综合发展等手段,加速AI迭代进化。
能力密度持续增强,AI普惠已在路上
电池密度每10年增长一倍,芯片电路密度每18个月翻倍,而大模型的能力密度翻番速度约为100天。“这就是大模型的密度定律。”清华大学计算机系副教授刘知远说,这意味着,随着数据、算力和算法的协同发展,大模型的能力密度将持续增强:2020年发布的GPT-3需要用1750亿参数才能达到的能力,今年2月只需24亿参数即可达到,所需的训练算力也下降了一个数量级。
根据这一定律,模型的推理成本将随时间呈指数级下降——过去20个月,GPT-3.5级模型的推理成本约2.5个月下降一倍,至今已降到当时的1/266.7。刘知远介绍,ChatGPT发布前,大模型能力密度倍增周期为4.8个月,在其发布后倍增周期缩短为3.2个月,随着更多资源的投入,未来大模型能力密度增速将继续提升。
与此同时,随着各种终端芯片承载能力的持续增强,不少大模型都将在可预计的未来加载到智能终端上。“就像芯片性能增强、价格下跌之后,随着台式机、手机的普及,真正掀起了信息革命的浪潮。”刘知远认为,当普罗大众都用得上、用得起AI,智能革命才会真正到来。
上海人工智能实验室青年科学家陈恺认为,未来人工智能的发展将同时在两个方向上探索:一方面不断触摸AI智能的上限,另一方面加速落地各种应用场景,由此形成相互促进、互为反哺的共生共荣局面,最终实现AI无处不在。
呼唤严肃大模型,接入更多现实数据
“如果你问AI,买哪支基金赚钱,得到的肯定是一堆‘正确的废话’。”在浙江大学计算机科学与技术学院教授赵俊博看来,只能回答“片汤话”,其根源在大模型本身的局限——既存在无法融合多模态数据的短板,更有推理能力上的欠缺。
如何才能让大模型变得更严肃?赵俊博认为有两个必要条件:一是大模型需要“看到”和“理解”行业数据,二是大模型需要理科生式的精准定量能力。
过去数年,赵俊博带领团队开发出了精准定量、Agent原生的数据库大模型TableGPT,这是业内迈向严肃大模型的首次尝试。实测显示,在结构化数据、数据库等相关任务上,TableGPT的表现比同类模型高出约35%-50%,部分表现超越GPT4。如今,该模型已在金融、保险、制造、民航、政务等多个领域落地。
西湖大学终身教授张岳认为,接入更多现实数据,对AI For Science也非常重要。他的团队在开发世界首个天然药材文献大模型“神农Alpha”时,就遇到了一个药材名称会同时对应几种植物的问题,比如麻黄会对应草麻黄、木麻黄等,“我们通过大量文献比对、数据梳理,完成了2万多个中药命名的规范化”。
链接真实世界,让生成与理解统一
作为大模型智力提升、构建世界模型的关键,多模态协同、融入思维链等话题受到业界的日益关注与重视。
水杯先漏水、后摔碎?小狗突然多冒出一个头?为何大模型生成的视频会出现这种不合逻辑的镜头?这是因为目前大模型的视觉生成和视觉理解,处于两条完全割裂的技术路线上。北京大学深圳研究生院助理教授袁粒认为,从大模型发展到AGI(通用人工智能),生成与理解的统一是必须攻克的关卡,“理解比生成更重要”。目前,学界已在为此努力,但在具体实现的技术路线上,还将各展所长。
大模型与机器人耦合的具身智能,被认为是一条通向AGI的技术途径。清华大学计算机系副研究员苏航认为,具身智能快速发展,其核心在数据。完全在真实世界中采集数据,成本非常高昂,仿真数据则可低成本、大规模获取,用于具身智能体的训练。比如,通过仿真数据的训练,一只机器狗可在从未接触过的雪地中奔跑,在荆棘丛、陡坡等多种地形上自适应稳定行走,甚至在关节失能的情况下前行。“同样的策略,我们还能用来训练双臂机器人,当然这个任务的挑战更大。”他透露,其团队已可让机器人调制出一杯精美的鸡尾酒。
作者:许琦敏
本文作者可以追加内容哦 !