出品|网易科技《态度AGI》对话栏目

作者|丁广胜

大模型产业,热闹非凡,也争论不断。共识有三,Transformer和MOE架构的能力、Scaling Law的潜力、视频生成的前景。

分歧也不少。Transformer是否是AGI的最终架构、大模型的监管问题、模型的商业化路径和效率提升。

昆仑万维(27.720, 0.15, 0.54%)兼天工智能首席科学家颜水成看来,共识也好,非共识也罢,大模型要真正迎来“奇点”时刻,还需要三点突破:

“一是实现大模型在更多实际应用中的成功落地,能够大规模解决实际问题并产生经济效益;二是建立完善的AI伦理和监管框架,确保AI技术的发展在可控和安全的范围内;三是技术创新持续突破,如数据处理、模型架构等方面不断进步。”

颜水成长期深耕人工智能产业,是横跨学界和产业界融合的代表性人物,他于一年前加入昆仑万维,看重昆仑万维清晰的产品矩阵。

“我在多家公司从事过AI相关的研究工作,我始终认为合理的产品布局至关重要。我更倾向于选择那些能够用产品引领技术研发的公司,这样技术能够有的放矢,与产品互相促进,从而增加产品成功的概率。”

过去一年,颜水成带领团队成立了2050全球研究院,致力于将产品、研发和研究团队通过六个大模型有机连接起来。

3月29日,他们与国际顶尖高校合作开源了数字智能体研发工具包AgentStudio,为研究人员和开发者提供了一个完整覆盖智能体开发流程的综合性平台。

4月29日,昆仑万维2050全球研究院联合新加坡国立大学、新加坡南洋理工大学团队发布并开源了Vitron通用像素级视觉多模态大语言模型。这款重磅的视觉多模态模型支持从视觉理解到视觉生成、从低层次到高层次的一系列任务,解决了图像与视频模型割裂的问题。

6月25日,他们与新加坡南洋理工大学合作开发了Q算法,大幅提升了现有大模型的推理能力。Q*算法的开发使小模型的推理能力得以接近甚至超越参数量大几十倍、上百倍的模型。

7月3日,他们联合北京智源人工智能研究院、新加坡南洋理工大学、北京大学等机构提出了通用计算机控制框架Cradle,使AI Agent无需训练即可像人一样直接控制键盘和鼠标,实现在任意开闭源软件上的交互。

节奏不可谓不快。

而要问颜水成花最多时间的地方是什么,他作答:

“原生语音交互和视频生成技术。我认为原生语音交互是下一代AI应用的关键,它能大幅简化人机交互的方式,让人与AI或设备的沟通更加自然和高效,从而大幅增加AI产品的用户基数。这种交互方式有望改变AI标签,使其真正成为智能助手。”

视频生成也是重中之重,颜水成认为,视频生成技术的进步将彻底革新内容生产的方式,极大提高创作效率。

至于多模态的话题,他说多模态的终极目标就是“all-modality-in, all-modality-out”,即输入和输出涵盖所有模态,而核心在于生成的内容必须符合现实世界的逻辑和物理定律。这样的能力能够让模型更接近于人类对世界的理解和互动方式。

在访谈中,颜水成还谈及大模型同质化问题,他提到,随着语言模型规模的不断扩大和数据量的增加,训练大模型的成本逐步超出大多数小公司的承受范围。同时,开源大模型的性能也在快速提升,使得从零开始训练一个全新大模型的必要性越来越低。

“因此,越来越多的公司将选择持续训练(continual training)和开发高效小模型,这自然导致模型的同质化。从目前已经公开的开源模型来看,模型本身的差异性并不显著,更多的差异体现在数据选择和一些微创新上。”

他认为,这种情况决定了大模型的发展趋势会趋向同质化,这是市场发展和技术资源分配下的必然结果。


追加内容

本文作者可以追加内容哦 !