今天分享的是人工智能系列深度研究报告:《人工智能专题:人工通用智能的火花:GPT-4的早期实验》。

(报告出品方:微软研究院

报告共计:161页

海量/完整电子版/报告下载方式:公众号《人工智能学派》

简介

智力是一个多方面的、难以捉摸的概念,长期以来一直对心理学家、哲学家和计算机科学家构成挑战。1994年,一个由52位心理学家组成的小组试图抓住其本质,他们在一篇关于智力科学的社论中发表了一个广泛的定义[Go197]。该共识小组将智力定义为一种非常普通的心理能力,其中包括推理、计划、解决问题、抽象恩考、理解复染群念、快速学习和从经验中学习的能力。这个定义意味着智能并不局限于某个特定的领域或任务,而是包含了广泛的认知技能和能力。建立一个能表现出1994年共识定义中的那种通用智能的人工系统是人工智能研究的一个长期的、雄心勃勃的目标。在早期的著作中,现代人工智能(A1)研究学科的创始人提出了一系列理解智能的理想目标[MMRS06]。几十年来,人工智能研究者们一直在追求智能的原则,包括可推广的推理机制(例如,[NSS59].[LBFL93])和构建包含大量常识性知识的知识库[Len95]。然而,人工智能研究中最近的许多成功可以说是狭险地专注于定义明确的任务和挑战,例如下棋或围棋,人工智能系统分别在1996年和2016年掌握了这些任务。在1990年代末和进入2000年后,开发更普的人工智能系统的呼声越来越高(例如,[SBD*96]),该顿域的学术研究也试图确定可能成为更普逼的智能系统基础的原则(例如,[Leg08,GHT15])。2000年代初,"人工通用智能"(AGI)这一短语被推广开来(见[Goe14]),以强调从“狭义的人工智能"(如正在开发的专注的现实世界的应用)向更广泛的智能概念发展的愿望。我们使用AGI来指代那些表现出上述1994年定义的广泛智能能力的系统,同时还要求这些能力达到或超过人类水平。我们用AGI来指代那些表现出上述1994年定义中的广泛智能能力的系统,以及额外的要求,也许是在共识小组的工作中隐含的,即这些能力达到或超过人类水平。然而,我们注意到,没有一个单一的AGI定义被广泛接受,我们在结论部分讨论了其他定义。

过去几年,人工智能研究中最显著的突破是大型语言模型(LLMS)在自然语言处理方面取得的进展。这些神经网络模型基于Transformer架构NVSP+ 17],并在大规模的网络文本数据体上进行训练,其核心是使用一个自我监督的目标来预测部分句子中的下一个单词。在本文中,我们报告了由OpenAI开发的新LLM的证据,它是GPT-4[Ope23]的早期和非多机表版本,根据1994年的定义,表现出许多智能的特征。尽管是纯粹的语言模型,这个早期版本的GPT-4在各种领域和任务上表现出显著的能力,包括抽象、理解、视觉、编码数学、医学、法律、对人类动机和情感的理解等等。在OpenAI的早期开发过程中,我们使用纯粹的自然语言查询(提示)与GPT-4进行互动1.在图1.1中,我们展示了GPT-4输出的一些初步例子,要求它以一首诗的形式写出素数的无限性证明,用TiKZ(一种在LATEX中创建图形的语言)画出一只独角鲁,用Python创建一个复杂的动画,并解决一个高中水平的数学问题。它很容易成功地完成了所有这些任务,并产生了与人类所能产生的结果基本上没有区别(甚至更好)的输出。我们还将GPT-4的性能与之前的LLM进行了比较,最值得一提的是ChatGPT,它是GPT-3的微调版本(改进版)[BMR*20]。在图1.2中,我们展示了ChatGPT对素数无限大的诗和TIKZ独角兽图的要求结果。虽然该系统在这两个任务上的表现都不差,但与GPT-4的输出结果相比,却没有什么区别。这些初步的观察结果将在本文中重复出现,在各种任务上都有体现。GPT-4的能力具有普通性,其众多能力跨越了广泛的领域,其在广泛的任务中的表现达到或超过了人类水平,这两者的结合使我们可以说GPT-4是迈向AGI的重要一步。

报告共计:161


追加内容

本文作者可以追加内容哦 !