这一轮AI技术的真正方向和路径,是通过多模态让机器理解世界,从而能真正服务用户;AI就是一座桥梁

文/智物

Demis Hass和他的前投资人Elon Musk,以及他的主要同行和对手Sam Altman对AI的观点很不一样。后面这两位对AI的巨大威胁和能力,有时候故意言过其实,危言耸听。

YanLecun就认为他们俩是在协AI自重,仔细看过他们关于AI的论述,访谈以及评论,多少有这样的意思。但是,Demis Hass对AI的看法要稳重得多,虽然,他也在那封著名的公开信上也签了名字。

但是,他不需要利用AI的巨大潜力,来制造焦虑,拉高公司的估值。他关于AI的论述,比Sam Altman和Musk更值得仔细聆听。最近两年的几次重要的演讲当中,Demis Hass的表态是最平稳的,谈论的内容,主要还是AI服务科学研究,最主要的当然是AlphaFold。

这一次Walter Isaacson与Demis Hass的访谈的整体也依然如故。Walter Isaacson搞砸了马斯克那本传记,把一个精彩、矛盾的科技英雄,庸俗化、流行化了,就像他之前搞砸乔布斯那本书一样。这是流行作者一贯的任务,和做法。

但是,此君之前有一本非常适合外行人看的关于信息科技历史梳理的书《创新者》,这本书反而是被忽略的。所以,别指望Isaacson问及多么深刻的领域,但是,至少他也不会忽略普遍的问题。

Demis Hass这一次依然不看好AGI短期实现的可能性,对于这个期限,《智物》觉得他是那种认为比较遥远的专业、从业者。另外,他提到的几个方向也是当前的热点,AI能力在从被动系统,走向主动系统。

他提到,AI的能力要从目前受困的比特世界,走向原子世界,也就是物理真实世界。他认为这是未来几年AI会取得巨大进步的领域。他当然也提到了Gemini,作为一个数字助手,Gemini的多模态能力的意义是,让AI去理解周围世界,然后才能处理现实世界的问题,真正帮助用户。

他认为这是AGI的根本性能力和课题。这是《智物》第一次发现有专业人士持有此意,多模态的真正价值,本轮AI技术的真正方向,是让机器理解世界,而不是让机器胡编乱造一些或真或假的信息。也就是几个月前,《智物》提到的,AI是一个机器和人的关系的再塑造,是新的桥梁。

大约在7年前,《智物》的一位同事曾经在伦敦遇到David Silver,也就是AlphaGO背后的主要的操盘人,他很明确地提到了DeepMind的主要努力方向:智能家居、智能医疗以及手机智能助手。

下文是Isaacoson和Hass访谈内容的节选:

Walter Isaacson:我认为你现在在伦敦的办公室,背后可能放着那本1950年阿兰·图灵的第一版论文,他在其中提出了一个问题:“机器能思考吗?” 现在我们有了很多大型语言模型,比如你帮助创建的Google Gemini和来自OpenAI的ChatGPT。

我们如何从一个能够通过图灵测试的聊天机器人——也就是能让人误以为它是人类——发展到更为严肃的东西,比如你所称的“圣杯”——通用人工智能(AGI)?

Demis Hass:嗯,这是一个很好的问题,当然,正如你所说的,在过去十年多的时间里,我们在接近能够通过图灵测试的系统方面取得了令人难以置信的进步,但它们还远未达到通用智能。我们仍然缺乏规划、记忆和工具使用等能力,这些能力使得系统能够主动为我们解决问题并执行任务。

目前,我们拥有的是一种被动系统。我们需要的是这些主动系统。

Walter Isaacson:等等,给我解释一下什么是规划。我知道你和我都会规划,那么机器如何做到这一点?

Demis Hass:实际上我们过去在游戏中进行了很多规划方面的实验。我们在2016年创建的一个最著名的程序是AlphaGo,这个程序击败了围棋世界冠军。这个过程涉及为棋盘建立一个模型,并预测哪些棋步可能是好的。但仅仅这样还不足以下得很好,还需要在“脑海中”试验不同的走法,然后规划并找出最优路径。

今天的语言模型还没有这种能力。我们需要构建这种规划能力,能够将一个任务分解成多个子任务,然后按正确顺序解决每一个子任务,以实现更大的目标。这种能力目前仍然缺失。

Walter Isaacson:告诉我为什么游戏对人工智能的发展如此重要。

Demis Hass:游戏是我进入人工智能领域的初衷。我曾经为英国青年队下了很多象棋,并且通过思考如何改善我的思维过程,使我开始思考如何机械化智能和人工智能。

当我们在2010年创办DeepMind时,我们使用游戏作为测试场地和验证算法思想的平台。游戏之所以这么有用是因为它们有明确的目标——赢得比赛或最大化得分——因此很容易绘制出并跟踪你在人工智能系统上的进展。这是一种非常方便的方法来开发如今支撑现代AI系统的算法思想。

Walter Isaacson:我想大多数人现在都使用过像ChatGPT这样的聊天机器人。你不仅谈到了将我们推进通用人工智能的可能性,也提到了所谓的“真实世界智能”,例如能够获取视觉信息并在物理世界中执行任务的机器人或自动驾驶汽车。

这是多么重要的事情,我们如何实现它?

Demis Hass:这非常重要。这个概念有时被称为“具身智能”,比如自动驾驶汽车就是一个例子,机器人则是另一个例子,这些系统能够与现实世界互动,如你所说的,原子世界,而不仅仅困在比特世界中。我认为我们将在未来几年内看到这一领域的巨大进步,这也将涉及规划能力和执行动作与计划以实现特定目标的能力。

但这并不是现实世界应用的唯一领域。我非常热衷的另一个领域,也是我一生都在为之努力的原因,就是将AI应用于科学——科学问题和科学发现——例如我们的AlphaFold项目,它破解了蛋白质折叠这一重大挑战。

Walter Isaacson:请详细介绍一下AlphaFold,因为它能够理解RNA、DNA,这些我们认为决定了蛋白质外观的因素。但实际上,蛋白质的功能取决于它的折叠方式。这有多么重要和困难,它会给我们带来什么?

Demis Hass:蛋白质折叠问题是生物学领域一个持续了50年的重大挑战。它是在1970年代由一位诺贝尔奖获得者提出的,问题的核心在于:你能否确定蛋白质的三维结构?生命中的一切都依赖于蛋白质——你的肌肉、你的身体、所有的功能都由蛋白质控制。蛋白质的功能取决于它在体内的折叠方式。

猜测是:你能否仅根据其一维的基因序列(即氨基酸序列)预测出蛋白质的三维结构?如果你能够做到这一点,它对于理解生物学、理解身体中的过程,以及设计药物、治疗疾病、理解问题出在哪里以及如何设计药物结合到蛋白质的某个特定部分等都会非常重要。这是生物学中一个非常基础、根本的问题,而我们通过AlphaFold基本上破解了这个问题。

Walter Isaacson:如今有许多大型语言模型在竞争。这几乎就像一个赛道,其中你的Google Gemini与OpenAI的产品、xAI的Grok、Meta的产品以及Anthropic的产品展开竞争。似乎Google Gemini的最新模型的一个显著特点是它是多模态的,这意味着它可以处理图像、音频,而不仅仅是文本。请解释一下这个概念,以及它是否是一个区分点。

Demis Hass:这是我们在设计Gemini系统时重点考虑的内容之一。正如你所说,我们从一开始就让它成为多模态的。多模态的意思是它不仅处理语言和文本,还处理图像、视频、代码和音频,这是我们作为人类使用和存在的不同模态。

我们一直认为,如果我们希望AI系统理解我们周围的世界并构建世界模型以及理解世界的运作方式,这一点对于它们来说是至关重要的,以便它们能够作为我们的数字助手或其他形式的助手为我们服务。为了实现这一点,它们必须是多模态的,它们必须处理所有这些不同类型的信息,而不仅仅是文本和语言。我们从一开始就让Gemini具有这种多模态能力。

我们设想了一个数字助手,一个可以理解你周围世界的通用助手,从而能够更好地帮助你。但如果你考虑像机器人或其他在现实世界中的东西,它们需要互动并处理现实世界中的问题,例如空间关系和上下文。我们认为这对于通用智能来说是根本性的。

Walter Isaacson:最近一两周的大新闻是Meta推出了LLaMA,它在某些方面是Google Gemini和OpenAI系统的竞争对手。马克·扎克伯格在介绍它时,大力宣传其开源特性。你在这方面比任何人都更有发言权。告诉我,为什么Google Gemini不是开源的,而马克·扎克伯格认为开源重要的观点是否正确?

Demis Hass:这确实非常重要。Google DeepMind和Google整体都是开源软件的巨大支持者。我们刚刚讨论的AlphaFold就是开源的。今天,世界各地的两百多万生物学家和科学家在几乎每个国家都在使用它进行重要的研究工作。

我们已经发表了数千篇关于构建现代AI系统所需的底层技术和架构的论文,其中最著名的是Transformer架构论文,这是支撑几乎所有现代语言模型和基础模型的架构。我们非常相信,最有效的科学进展方式是共享信息。这一直是如此,这也是科学为什么能取得进展的原因。所以,在AGI系统这个特殊的情况下,我认为我们需要思考,随着它们变得更强大——今天的模型是没问题的——但随着我们接近人工通用智能,我们该如何处理坏人问题?

无论是个人还是国家,这些模型都具有双重用途。它们可以用于善——显然,这就是为什么我一生致力于AI的发展,为了帮助治愈疾病、应对气候变化等,推进科学和医学。

但它们也可以被坏人用于危害。如果这些系统被错误使用,就可能产生负面影响。所以,这就是我们作为一个社区、一个研究界需要解决的问题:如何让AI的所有优秀应用案例能够被善意的研究人员使用,并在全球范围内分享信息,以推进该领域的发展并创造出有利于人类的新应用,同时限制那些可能将这些系统用于有害目的的坏人的访问权限。

我认为这就是我们在开放系统与封闭系统之间需要解决的难题。对于随着这些系统的改进,如何实现这一目标,目前还没有一个明确的答案或共识。但当然,我祝贺马克·扎克伯格和Meta推出的新模型,我认为这有助于刺激对这一话题的讨论。

Walter Isaacson:能够让AI系统真正强大的一个因素是它可以使用的训练数据,而你在Google工作,你们拥有YouTube——这个节目很快就会出现在YouTube上。Google Gemini是否在未经许可的情况下使用YouTube进行训练?它也可以训练我的书籍,任何我写的书它都能读。我们如何监管Google Gemini不能仅仅获取所有这些数据和知识产权而没有协议?

Demis Hass: 是的,在Google,我们非常小心地尊重所有这些版权问题,只在开放的网络上进行训练,无论是YouTube还是其他网站。此外,我们也有一些内容协议。这对整个行业,尤其是研究行业来说,将会是一个有趣的问题,即未来如何处理这个问题。我们还提供了一个Google的选择退出机制,任何网站如果不希望被用于训练,都可以选择退出,很多人已经利用了这个选项。

随着时间的推移,我认为我们需要开发一些新技术,通过某种形式的归因,能够识别某些输入训练对某些输出起到了多大作用,然后从中产生一些商业价值,反馈给内容创作者。我认为这种技术目前还不存在,但我们需要开发它——类似于YouTube的内容ID系统。

YouTube多年来一直运行得非常好,它使创作者社区能够从YouTube带来的分发中获益颇多。我认为这是一个很好的例子,也是我们在AI领域努力遵循的方向。你知道,YouTube生态系统的发展模式。

Walter Isaacson: 在你生活中的精彩传记中,有件事几乎和你是一个游戏玩家和游戏设计师一样重要,那就是你拥有认知神经科学的博士学位。你热爱人类大脑。理解人类大脑的工作原理对于开发AI有多重要?而硅基数字系统和人类大脑的“湿件”之间是否总会存在一些根本的不同?

Demis Hass: 你说得对,我大约20年前在2000年代中期获得了博士学位。我认为在那段时间,尤其是DeepMind早期的2010年代,借鉴机器学习、数学以及神经科学和人类大脑对智能运作方式的启示非常重要。

这并不是说你要机械地复制大脑的工作方式,因为正如你所指出的,我们的大脑是基于碳的,而我们的计算机是基于硅的,所以没有理由说它们的机制应该相同,实际上它们确实工作方式不同。

但很多算法的原则、系统和架构以及智能背后的原理是相通的。例如,神经网络早期的东西——这些现代AI的基础——最初就是受神经科学和大脑中的突触的启发。

所以,虽然实现细节不同,但算法思想在启动我们今天看到的现代AI革命中是非常有价值的,包括学习系统、强化学习和自我学习的系统,这些非常类似于我们大脑中的生物系统。

最终,或许当我们构建出人工通用智能(AGI)时,我们将能够利用它来分析我们自己的思想,从而更好地理解神经科学,并最终理解我们自己大脑的工作原理。我非常喜欢这种相互影响的良性循环。

Walter Isaacson: 你曾说过一句话:“减轻AI带来的灭绝风险应该成为全球的首要任务。”这些风险是什么?

Demis Hass: 这是我和许多人共同签署的一封公开信,我认为将这一问题纳入公共讨论视野中非常重要。你知道,我认为目前还没有人知道确切的时间表或担忧的程度。我认为当前的系统虽然很令人印象深刻,但距离人工通用智能还有很远的路要走。而且我们也不知道这些风险的具体水平。也许控制这些系统将变得非常简单,比如如何控制它们,如何确保我们设定的目标——这些更像是代理系统——不会让它们做出我们未曾预料的事情,即意外的后果。

你知道,有很多科幻小说都是关于这些场景的——大多数阿西莫夫的书都涉及这些场景。我们希望避免所有这些事情,确保我们用这些系统来做一些好的事情,比如解决疾病问题、帮助应对气候变化、发明新材料——所有这些我认为将在未来十年左右出现的令人惊叹的事情。

但我们需要更好地理解这些系统,我认为随着时间的推移,我们也会更好地理解那些失控系统的风险,以及那些不良行为者如何以不法方式使用这些系统。这一切的可能性可能会非常低,但让我们希望如此。

但现在有很多不确定性,所以作为一个科学家,我处理这种问题的方法——我认为唯一负责任的方法就是以谨慎的乐观态度去应对。所以我显然非常乐观,相信人类的集体智慧会解决这一切。我对此非常有信心;否则我不会在30年前开始这段旅程。

但你知道,这并不是理所当然的,我们需要在这些方面进行研究,关注它们,以便理解这些系统,比如让它们不再只是黑箱,我们实际上理解并能够控制它们,并查看这些系统中知识的表示方式。然后我们将能够理解风险以及这些风险的概率,并采取措施加以减轻。所以这封信真的只是一个呼吁,希望能在关注所有令人兴奋的商业潜力的同时,也更多地关注这些风险,但你知道,我们依然需要保持乐观,同时以这些技术应有的尊重态度来对待它,因为AI是如此具有变革性。

追加内容

本文作者可以追加内容哦 !