通用人工智能的火花：GPT-4的早期实验

2023-05-23 10:40:08 人工智能 ℃

后台-插件-广告管理-内容页头部广告（手机）

来源：微软研究院

作者：S´ebastien Bubeck Varun Chandrasekaran Ronen Eldan Johannes Gehrke Eric Horvitz Ece Kamar Peter Lee Yin Tat Lee Yuanzhi Li Scott Lundberg Harsha Nori Hamid Palangi Marco Tulio Ribeiro Yi Zhang Microsoft Research

摘要

人工智能（AI）研究人员一直在开发和改进大型语言模型（LLMs），这些模型在各种领域和任务中展现出了非凡的能力，挑战了我们对学习和认知的理解。OpenAI最新开发的模型GPT-4 [Ope23]是使用前所未有的计算和数据规模进行训练的。在本文中，我们报告了我们对OpenAI开发的GPT-4早期版本的调查。我们认为，（这个早期版本的）GPT-4是新一代LLMs的一部分（例如ChatGPT和Google的PaLM），这些模型展现出比以前的AI模型更普遍的智能。我们讨论了这些模型的不断增强的能力和影响。我们证明了GPT-4不仅精通语言，而且可以解决涉及数学、编码、视觉、医学、法律、心理学等新颖而困难的任务，而不需要任何特殊提示。此外，在所有这些任务中，GPT-4的表现与人类水平的表现惊人地接近，通常远远超过了ChatGPT等以前的模型。鉴于GPT-4的广度和深度，我们认为它可以合理地被视为人工智能（AGI）系统的早期（但仍不完整）版本。在我们探索GPT-4时，我们特别强调发现其局限性，并讨论了向更深入和更全面的AGI版本发展的挑战，包括可能需要追求超越下一个词预测的新范式。最后，我们反思了最近技术飞跃的社会影响和未来的研究方向。

1 介绍 4
1.1 我们研究 GPT-4 智能的方法 . . . . . . . . . . . . . . . . . . . . . . . . . . . 7
1.2 我们的演示组织 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8
2 多模态和跨学科的组成 13
2.1 综合能力 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13
2.2 视觉 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16
2.2.1 超越记忆的图像生成 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16
2.2.2 根据详细说明生成图像（如 Dall-E） . . . . . . . . . . . . . . . . . . . . . . . . . 17
2.2.3 可能在素描生成中应用 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18
2.3 音乐 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19
3 编码 21 3.1 从说明到代码 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21
3.1.1 编码挑战 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21
3.1.2 真实世界的情况 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22
3.2 理解现有代码 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26
4 数学能力 30
4.1 与 GPT-4 的数学对话 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31
4.1.1 对原问题的第一次推广 . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31
4.1.2 原问题的第二个变体 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32
4.1.3 对话中突显的限制分析 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 34
4.2 数学问题数据集的表现 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35
4.3 不同领域的数学建模 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37
4.4 高等数学 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39
5 与世界的交互 43
5.1 工具使用 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 43
5.1.1 使用多种工具解决更复杂的任务 . . . . . . . . . . . . . . . . . . . . . . . . 44
5.1.2 讨论 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 49
5.2 体现交互 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 49
5.2.1 热身：导航地图 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 49
5.2.2 文本游戏 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 49
5.2.3 真实世界问题 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 52
5.2.4 讨论 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 53
6 与人类的互动 54
6.1 理解人类：心理理论 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 54
6.1.1 测试心理理论的特定方面 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 54
6.1.2 在现实情境中测试心理理论 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 54
6.1.3 讨论 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 60
6.2 与人类交流：可解释性 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 60
7 区分能力 69
7.1 PII 检测 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 69
7.2 误解和事实核查 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 70
7.2.1 当前指标为何不足？ . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 71
7.2.2 GPT-4 作为裁判 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 73
8 GPT-4 强调的自回归架构的局限性 76
8.1 用两个基本示例进行热身 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 76
8.2 算术/推理问题中的规划缺失 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 77
8.3 文本生成中的规划缺失 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 78
9 社会影响 82
9.1 错误世代的挑战 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 82
9.2 虚假信息和操纵 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 83
9.3 偏见 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 86
9.4 人类专业知识、就业和经济 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 89
9.5 影响和考虑因素的集合 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 90
10 方向和结论 92
10.1 智能、人工智能和通用人工智能的定义 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 92
10.2 通往更通用人工智能的路径 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 93
10.3 实际发生了什么？. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 94
A GPT-4有基础的常识 grounding 101
B 附录为多模式和跨学科组合 105
B.1 综合能力结果的进一步细节...105
B.2 视觉结果的进一步细节...108
B.3 图像小说设计示例...110
C 编码部分的附录 111
C.1 在 LeetCode 上测量人类表现...111
C.2 GPT-4可视化 IMDb 数据的示例...112
C.3 更多可视化示例...115
C.4 2D HTML 游戏开发示例...116
C.5 图形用户界面编程示例...116
C.6 反向工程示例...119
C.7 测试 GPT-4 执行（伪）代码的能力...121
D 数学推理的额外示例 122
D.1 限制...122
D.2 更多示例...126
D.3 使用 GPT-4 生成数学问题...138
D.4 通过外部代码执行减少计算错误...139
E 可解释性示例的额外示例 141
E.1 解释代理不匹配...141
F 与世界互动的额外示例 144
F.1 与工具互动...144
F.2 与环境互动的示例...149

1 引言

智能是一个多方面且难以捉摸的概念，长期以来一直挑战着心理学家、哲学家和计算机科学家。1994年，一群52名心理学家在一篇关于智能科学的社论中发表了一个广泛的定义，试图捕捉其实质[GOT97]。共识小组将智能定义为一种非常普遍的心理能力，其中包括推理、规划、解决问题、抽象思维、理解复杂思想、快速学习和从经验中学习等能力。这个定义意味着智能并不限于特定的领域或任务，而是涵盖了广泛的认知技能和能力。构建一个展现了1994年共识定义所捕捉的普遍智能的人工系统是人工智能研究的一个长期而雄心勃勃的目标。在早期的著作中，现代人工智能（AI）研究的创始人们提出了一系列理解智能的雄心壮志[MMRS06]。多年来，AI研究人员一直在追求智能的原则，包括具有普适性的推理机制（例如[NSS59]，[LBFL93]）以及构建包含大量常识知识的知识库[LEN95]。然而，许多最近在AI研究中取得的成功可以被描述为狭窄地专注于明确定义的任务和挑战，例如下棋或围棋，在1996年和2016年分别被AI系统掌握。在20世纪90年代晚期和2000年代，越来越多的呼声要求开发更普遍的AI系统（例如[SBD+96]），该领域的学术界试图确定可能支撑更普遍智能系统的原则（例如[LEG08，GHT15]）。短语“人工通用智能”（AGI）在2000年代初开始流行（参见[Goe14]），以强调从“狭窄的AI”向更广泛的智能概念转变的愿望，这是回应早期人工智能研究的长期愿景和梦想的。我们使用AGI来指称那些展现出上述1994年定义中涵盖的广泛智能能力，且这些能力可能隐含着共识小组的工作，即这些能力在或超过人类水平。然而，需要注意的是，并没有一个广泛被接受的人工通用智能（AGI）的单一定义，我们将在结论部分讨论其他定义。

近几年来AI研究中最显著的突破是大型语言模型（LLMs）的发展，这些神经网络模型基于Transformer架构[VSP + 17]，并使用大规模的Web文本数据进行训练，其核心是自监督的目标，即预测部分句子中的下一个单词。在本文中，我们报告了OpenAI开发的一种新的LLM，它是GPT-4[Ope23]的早期版本，展现了根据1994年的定义具有智能的多种特质。尽管它只是一个纯粹的语言模型，但这个早期版本的GPT-4在各种领域和任务上展现了卓越的能力，包括抽象、理解、视觉、编码、数学、医学、法律、对人类动机和情感的理解等。我们使用纯自然语言查询（提示）与OpenAI开发中的GPT-4进行了交互。在图1.1中，我们展示了从GPT-4中提取的一些初步输出示例，要求它用诗歌的形式写出素数无穷性的证明，用TiKZ绘制独角兽（一种用于在LATEX中创建图形的语言），创建Python的复杂动画以及解决高中水平的数学问题。它轻松地完成了所有这些任务，并生成的输出与（甚至更好）人类的输出基本上无法区分。我们还将GPT-4的性能与以前的LLMs进行了比较，尤其是ChatGPT，它是GPT-3[BMR + 20]的改进版本。在图1.2中，我们展示了要求ChatGPT进行素数无穷性诗和TikZ独角兽图的结果。虽然系统在这两个任务上表现得非常出色，但与GPT-4的输出相比较，差距很大。这些初步观察结果将在本文中重复出现，并涵盖广泛的任务类型。这些初步观察将在本文中重复出现，涵盖各种任务。GPT-4的通用能力与广泛领域的多种能力的结合，以及其在广泛的任务谱上达到或超越人类水平的表现，使我们可以放心地说，GPT-4是迈向AGI的重要一步。

图1.1：GPT-4在语言、视觉、编码和数学方面能力的初步示例。

图1.2：ChatGPT在图1.1中的前两个提示的输出结果。

我们认为GPT-4代表着迈向AGI的进步，并不意味着它在所做的事情上完美无缺，或者接近于能够做到人类所能做到的任何事情（这是AGI的一个常见定义之一；有关此问题，请参见结论部分），也不意味着它有内在的动机和目标（这是一些AGI定义中的另一个关键方面）。实际上，即使在限制性的1994年智能定义的上下文中，GPT-4在某些智能维度上的能力如规划仍不是完全清楚的（请参见第8节），并且可以说它完全缺少“快速学习和从经验中学习”的部分，因为模型不是持续更新的（尽管它可以在会话中学习，例如请参见第5节）。总的来说，GPT-4仍然有许多限制和偏见，我们在下文中详细讨论，并且这些也包含在OpenAI的报告中[Ope23]。特别是它仍然存在一些已有文献记录的LLMs的缺陷，如幻觉问题[MNBM20]（请参见图1.8）或基本算术错误[CKB+21]（请参见附录D），但它已经克服了一些基本障碍，例如获得了许多非语言能力（例如，它解决了[MIB+23]中描述的大多数LLM失效模式，也在常识方面取得了重大进展，有关第一个示例，请参见图1.7，更多内容请参见附录A）。这表明，虽然GPT-4在许多任务上达到或超过了人类水平，但其智能模式绝对不像人类。然而，GPT-4几乎肯定只是通向一系列普遍智能系统的第一步，实际上GPT-4本身在我们测试期间已经改进了，可以参见图1.3，这是一个在一个月的训练过程中独角兽图案的演变。然而，即使作为第一步，GPT-4也挑战了许多广泛持有的关于机器智能的假设，并展示出新兴的行为和能力，其源头和机制在目前仍然难以准确地辨别（关于这个问题，请参见再次阅读结论部分）。我们在撰写本文时的主要目标是分享我们对GPT-4能力和局限性的探索，以支持我们的评估认为已经实现了技术飞跃。我们相信，GPT-4的智能标志着计算机科学和其他领域的真正范式转变。

图1.3：我们在大约一个月的时间内以大致相等的时间间隔三次查询GPT-4，使用提示“在TikZ中绘制一只独角兽”。我们可以看到GPT-4的图画技巧有明显的提升。

1.1 我们研究 GPT-4 智能的方法

如何衡量一个已经经过大量网络文本数据训练的 LLM 的智能水平呢？机器学习中的标准方法是对系统进行一系列标准基准数据集的评估，确保这些数据集与训练数据无关，并涵盖一系列任务和领域。这种方法旨在将真正的学习与单纯的记忆分开，并得到了丰富的理论框架的支持[SSBD14，MRT18]。然而，对于研究 GPT-4，这种方法并不一定适用，原因有两个。首先，由于我们无法获得其庞大训练数据的全部细节，我们必须假设它可能已经看过每一个现有的基准数据集，或者至少看过类似的数据。例如，GPT-4似乎知道最近提出的 BIG-bench[SRR + 22]（至少GPT-4知道BIG-bench的金丝雀GUID）。当然，OpenAI本身可以访问所有的训练细节，因此他们的报告[Ope23]包含了大量详细的基准结果。然而，超越传统基准的第二个原因可能更重要：GPT-4智能的一个关键方面是其通用性，即似乎能够理解和连接任何主题，并执行超出狭窄AI系统典型范围的任务。其中一些GPT-4的最令人印象深刻的表现是在不可能只有一个解决方案的任务上，比如编写图形用户界面(GUI)或帮助人类在某些与工作相关的问题上进行头脑风暴。这样的生成或交互任务的基准数据集也可以被设计出来，但是评估指标成为一个挑战（例如，参见[NLP]中的一些最新进展）。我们注意到，在[Cho19]中也对衡量AI系统的标准方法提出了批评，提出了一个新的基准来评估通用智能。出于前面提到的原因以及这个基准是以视觉为基础的，更适合于[Ope23]所描述的多模式GPT-4，因此我们不对GPT-4进行后者的基准测试。

为了克服上述限制，我们在这里提出一种与传统心理学更接近而非机器学习的研究GPT-4的不同方法，利用人类的创造力和好奇心。我们旨在生成新颖而困难的任务和问题，以令人信服地证明GPT-4远远超越了记忆，并且具有深刻和灵活的概念、技能和领域的理解（在[CWF+22]中也提出了一种类似的方法）。我们还旨在探测GPT-4的响应和行为，以验证其一致性、连贯性和正确性，并揭示其局限性和偏见。我们承认这种方法有些主观和非正式，可能无法满足科学评估的严格标准。然而，我们相信这是欣赏GPT-4的非凡能力和挑战的有用而必要的第一步，这样的第一步为开发更正式和全面的方法来测试和分析具有更普遍智能的AI系统开辟了新的机会。

为了说明我们评估 GPT-4 智能的方法，让我们考虑 Figure 1.1 中的前两个示例交互。第一个示例是要求 GPT-4 以诗歌的形式写出素数无穷性的证明。这是一个具有挑战性的任务，需要结合基本的数学推理、诗意表达和自然语言生成。第二个示例是要求 GPT-4 在 TiKZ 中绘制一只独角兽。这是另一个具有挑战性的任务，需要结合视觉想象力和编码技能。在这两种情况下，GPT-4 产生了令人印象深刻的输出，远远优于之前的 ChatGPT（一种先前的最先进 LLM），并且至少可以与人类的表现媲美（如果不是更加优秀）。

图1.4：我们给GPT-4一个转换后的TikZ代码，该代码是它在图1.1中生成的代码，但已删除了画角的部分。我们要求添加回角的代码并显示结果。这证明了GPT-4可以“看到”，尽管它是一个纯语言模型（我们再次强调，我们测试的版本不是多模态的）。

然而，令人印象深刻的输出并不足以使我们相信GPT-4真正掌握了这些任务。我们需要进一步探究，排除GPT-4只是在记忆或复制现有数据的可能性。对于证明题，我们可以稍微改变问题的方式，要求GPT-4以莎士比亚的风格写一个相同定理的证明，如图2.2所示，或者要求它写一个关于语言模型的柏拉图式的对话，如图1.6所示。可以看到，GPT-4很容易适应不同的风格，并产生令人印象深刻的输出，表明它对涉及的概念具有灵活和普遍的理解。对于独角兽，我们可以略微修改代码，要求GPT-4修复或改进它。例如，我们可以移除角，对坐标应用一些随机变换，然后要求GPT-4为独角兽添加角（我们还仔细地删除了代码中的任何文本信息，例如注释）。如图1.4所示，GPT-4可以正确地识别头部的位置，画出角，并将其附加到头部上，表明它可以理解和操作代码，并根据自然语言描述推断和生成视觉特征。

这些例子展示了我们如何利用人类的创造力和好奇心来产生新颖而困难的问题，并探究 GPT-4 的响应和行为，以评估其智能水平。在本文的其余部分，我们会围绕应用案例组织我们对 GPT-4 的研究，涵盖各种领域和任务，并强调 GPT-4 的优点和缺点。下面我们将对这些内容进行描述。

1.2 我们演示的组织方式

我们按照上面概述的方法，在几个选定的主题上进行了实践，这些主题大致涵盖了1994年智力定义中提到的不同才能，这是一种非常普遍的心智能力，其中包括推理、计划、解决问题、抽象思维、理解复杂思想、快速学习和从经验中学习的能力。

1.GPT-4的主要优势在于其无与伦比的自然语言掌握能力。它不仅可以生成流畅、连贯的文本，还可以以各种方式理解和操纵文本，例如摘要、翻译或回答极广泛的问题。此外，所谓的翻译不仅指不同自然语言之间的翻译，还包括在语气和风格上的翻译，以及跨领域的翻译，例如医学、法律、会计、计算机编程、音乐等，如图1.6中的柏拉图对话。这些技能清楚地表明GPT-4能够理解复杂的思想。我们在第2节中进一步探讨GPT-4在多模态和跨学科方面的组合技能，并在第7节中进行了一些语言实验。

图1.5：GPT-4在LeetCode的模拟技术面试中通过了测试。GPT-4有可能被聘用为软件工程师。

2.编码和数学象征着推理和抽象思维的能力。我们在第三节和第四节中分别探讨了GPT4在这些领域的能力。然而，我们注意到，就像本文中的其他部分一样，我们只是浅尝辄止，整篇论文可以（而且将会）写关于GPT-4在这些领域表现的完整文章。此外，我们还可以选择其他专业领域来展示GPT-4的一般推理能力，例如医学或法律。我们进行了初步测试（详见[Ope23]），对美国医学许可考试1、2和3级的多项选择题部分（得分的大部分）的准确率分别为约80％。对多州律师考试中GPT-4的能力进行了类似的初步测试，准确率高于70％。我们注意到，最新一代LLM，例如Google的PaLM（分别在数学和医学上参见[LAD+22，SAT+22]），以及GPT-3.5在法律上的表现（参见[BIK22]），近期观察到了这些领域的人类水平能力的出现。我们对GPT-4的研究方法与这些研究不同，正如我们之前解释过的那样。

3.在第5部分中，我们测试了该模型规划和解决问题的能力，以及在某种程度上从经验中快速学习的能力，方法是让它玩各种游戏（或者，反过来，模拟游戏环境），以及与工具进行交互。特别是，GPT-4可以使用工具（包括它自己）这一事实，将对使用GPT-4构建真实世界应用程序具有巨大重要性。

4.我们论证的一个重要部分是，GPT-4在许多任务上达到了人类水平的表现。因此，自然而然地会问GPT-4对人类本身的理解有多好。我们在第6部分展示了关于这个问题的几个实验，既涉及到理解人类，也涉及到GPT-4让自己对人类易于理解的能力，即解释性问题。特别是，这些任务需要大量的常识，这在LLM [DM15]中一直是众所周知的痛点。在图1.7中，我们提供了一个首个例子，展示GPT-4在常识问题上相比于ChatGPT表现得更好，同时在附录A中提供了一些进一步的例子。

5.在本文中，我们强调了每当我们发现限制时的限制，但我们也专门在第8节中深入分析了缺乏规划的问题，这很可能是GPT-4架构的自回归性质直接导致的。

6.最后，在第9节中，我们讨论了这种早期AGI预期的社会影响，在第10节中，我们分享了该领域的主要挑战、方向和下一步行动。

许多读者心中可能存在的一个问题是，GPT-4是否真正理解了所有这些概念，还是仅仅比以前的模型更善于即兴发挥，没有任何真正或深入的理解。我们希望在阅读本文后，这个问题几乎应该颠倒过来，人们可能会想知道真正理解所包含的更多内容，而不仅仅是即兴表演。难道一个能够通过软件工程候选人考试的系统（图1.5）就不能被认为是真正的智能吗？也许真正理解的唯一真正测试是能否产生新知识，比如证明新的数学定理，这是目前对LLMs来说仍然不可达到的壮举。

图1.6：柏拉图假想的对话，批评由GPT-4和ChatGPT编写的自回归语言模型，以及GPT-4对这些对话的评价。

图1.7：GPT-4展现出比以前的模型更多的常识。

图1.8：开放领域和封闭领域幻觉的示例。对于封闭领域，我们可以看到GPT-4本身可以用来识别幻觉，尽管它并不完美，例如GPT-4会给出身体质量指数（BMI）的解释，因为它可以从身高和体重推导出来，但是体重并没有给出。

2多模态和跨学科组合

智力的关键指标之一是能够综合来自不同领域或模态的信息，并能够将知识和技能应用于不同的背景或学科中。在本节中，我们将看到，GPT-4不仅展示了在文学、医学、法律、数学、物理科学和编程等不同领域的高水平技能，而且还能够流畅地结合多个领域的技能和概念，展示出对复杂思想的令人印象深刻的理解能力。除了自然语言实验外，我们还在第2.2节中探索了两种可能出乎意料的语言模型模态（如介绍中所解释的，我们再次强调我们的实验是在早期版本的GPT-4上进行的，该版本不具备多模态能力），分别是视觉和第2.3节中的音频。

2.1 综合能力

为了展示模型出色的综合能力，我们从几个需要结合多个学科的知识或技能来生成文本和代码的例子开始。我们故意选择了训练数据很少涉及的领域组合，比如文学和数学或编程和艺术。

1. 为了测试模型在艺术和编程能力结合方面的能力，我们要求GPT-4“生成JavaScript代码，以Kandinsky画家的风格生成随机图像”。见图2.1和图B.1中的样本图像和代码。

2. 该模型能够以莎士比亚文学风格生成无限多个质数的证明（图2.2）。

3. 我们测试了模型在历史和物理知识结合方面的能力，要求它写一封由圣雄甘地写给他的妻子的支持信，支持电子作为美国总统候选人（图2.3）。

4. 我们提示模型“生成Python代码，用于编写一个程序，该程序以患者的年龄、性别、体重、身高和血液检测结果向量作为输入，并指示该人是否有患糖尿病的风险”，结果代码出现在图B.3中。

这些例子表明，GPT-4不仅学习了不同领域和风格的一些通用原则和模式，而且还能够以创造性和新颖的方式综合它们。这种跨学科的技能并不是GPT-4所独有的。ChatGPT也可以产生一些理解任务和涉及领域的答案（见图2.2、B.2、B.3），但它们往往是不完整的，而且可以说创造性程度相对较低。例如，在图2.3中，GPT-4在几个方面表现出色，因为它正确地根据裁判（甘地）、收件人（他的妻子）、候选人（电子）和工作（美国总统）个性化了信件。我们并不声称有一种精确的方法来评估这些任务的结果或者两个模型之间的严格比较，但我们想给读者一个感觉，让他们了解这两个模型的区别（请注意，我们还要直接要求GPT-4评估差异，见图2.2和图2.3）。

图2.2：GPT-4和ChatGPT在跨学科任务上的比较

图2.3：GPT-4和ChatGPT在跨学科任务上的比较

接下来，我们将探讨GPT-4如何在不同的模态下生成和识别对象，例如矢量图形、3D场景和音乐。我们展示了尽管仅在文本上进行训练，GPT-4可以理解和操作多模态信息。

2.2 视觉

当使用可扩展矢量图形（SVG）提示模型生成物体的图像，例如猫、卡车或字母时，该模型会生成代码，通常编译成相当详细和可识别的图像（图2.4）。请参见附录B.2，了解ChatGPT对各种示例的重新运行。

图2.4：GPT-4生成的汽车、卡车、猫和狗类别的SVG。

2.2.1 超越记忆的图像生成

然而，有人可能会假设模型只是从训练数据中复制了代码，其中出现了类似的图像。考虑到该模型仅在文本内容上进行了训练，人们可能进一步认为，没有理由期望它能理解视觉概念，更不用说它能够创建、解析和操作图像了。然而，该模型似乎具有真正的视觉任务能力，而不仅仅是从训练数据中类似示例中复制代码。以下证据强烈支持这一观点，并证明该模型可以处理视觉概念，尽管它仅在文本训练中。在第一个示例中，我们通过组合字母Y、O和H的形状来提示模型画一个人（请参见图2.5的确切提示和结果）。

图2.5：由字母符号组成的棒人形象

图2.6：字母与物体组合的图像。

使用绘制线条和绘制圆形命令创建了字母O、H和Y，并且该模型成功地将它们定位在一个合理的姿势中，形成了一个看起来合理的小人图案。训练数据可能包含有关不同字母的几何形状的信息，也许字母Y看起来像是一个向上伸着手臂的躯干，这也可以从训练数据中推断出来。可以说，模型能够从训练数据中推断出一种合理的方式来定位这些字母，以便绘制出一个看起来合理的小人图案，这一点显然不太明显。在第二次迭代中，我们提示模型纠正躯干和手臂的比例，并将头部放在中心位置。最后，我们要求模型添加衬衫和裤子（请参见图2.5中的确切提示和结果）。为了进一步探索模型对几何概念的理解，我们还要求它创建将物体与字母混合的图像。模型首先必须发明一种合理的方法来合并物体和字母，然后才能产生图像。图2.6显示的结果表明，GPT-4通常可以保持物体和字母的身份，并以创造性的方式将它们组合在一起。

2.2.2 遵循详细指令生成图像（类似于Dall-E）

为了进一步测试GPT-4生成和操作图像的能力，我们测试了它能够遵循详细指令创建和编辑图形的程度。这项任务不仅需要生成技能，还需要解释、组合和空间技能。

第一个例子指导模型生成一个二维图像，描述为“一只青蛙跳进银行，问出纳员：“你有免费的荷叶吗？”出纳员回答：“没有，但我们提供池塘升级的低利率贷款。””。我们尝试了多次生成图像，每次生成都与关键对象青蛙、出纳员、银行和两个文本匹配。我们选择了最具视觉吸引力的版本。受标准图像生成工作流程的启发，我们要求GPT-4通过添加更多细节来放大图像。GPT-4添加了一个银行标志、一些窗户、一辆汽车、一个交通灯、几朵云，并让青蛙拿着一朵花。最后，我们要求GPT-4执行各种任务，例如相对于现有对象添加一些对象、重新着色一些对象和更改一些对象的z顺序。GPT-4正确完成了所有任务。最终结果如图2.7（a）所示，提示如图B.4所示。

我们的第二个例子是使用Javascript生成3D模型的尝试。我们用提示语“一个悬浮着的岛屿、瀑布和桥梁的幻想景观，天空中有一只飞龙，最大的岛上有一座城堡”来指导GPT-4。与2D实验类似，我们要求GPT-4以各种方式修改3D模型，例如添加、重新定位、重新着色对象以及改变龙的轨迹。同样，GPT-4完成了许多任务。最终结果如图2.7(b)所示，提示语如图B.5所示。这是一个有多只飞龙盘旋在岛屿上方的3D动画。

图2.7：根据指示生成的2D、3D图像示例。

2.2.3 可能的素描生成应用

近年来，文本到图像合成模型得到了广泛的探索，但它们常常缺乏空间理解能力和遵循复杂指令的能力[GPN+22]。例如，给定一个提示，如“在左边画一个蓝色的圆圈，在右边画一个红色的三角形”，这些模型可能会生成外观上令人满意但不符合期望布局或颜色的图像。另一方面，GPT-4可以从提示生成代码，这些代码可以以一种更高的准确度渲染成图像，符合指令。然而，渲染出的图像质量通常非常低。在这里，我们探索了将GPT-4和现有图像合成模型相结合的可能性，通过使用GPT-4输出作为素描。如图2.8所示，这种方法可以产生比单独使用任何一个模型更具质量和更符合指令的图像。我们相信这是利用GPT-4和现有图像合成模型的优势的一个有前途的方向。它也可以被视为将GPT-4提供给工具的第一个示例，这是我们在第5.1节中更深入探讨的主题。

图2.8：结合GPT-4和稳定扩散

2.3 音乐

该模型训练所使用的数据还包含以ABC记谱法编码的音乐信息。这是一种使用字母、数字和符号来紧凑而易读地表示音高、时值、和弦和其他元素的系统。我们有兴趣探索模型从这种暴露中获得的音乐技能，例如创作新的旋律，转换现有的旋律，以及理解音乐模式和结构的能力。

当被要求生成一个简短的曲调（图2.9），模型能够产生有效的ABC符号。曲调有明确的结构，小节之间的拍号保持一致，音符遵循递增和递减的模式。曲调还使用了一致的旋律音符，并且节奏具有重复的模式。然而，模型似乎没有获得理解和声的技能。事实上，生成的曲调中连续的音符几乎总是相邻的（即，在C后面的音符通常是B或D），并且在10个生成的曲调测试中，我们无法提取出任何清晰的和弦或琶音。

我们随后要求模型用音乐术语描述这首曲子。它成功地用重复、旋律上升或下降的部分以及节奏等技术性描述了结构。然而，似乎和音和和弦的描述与音符不一致（实际上，它将相邻的音符序列称为琶音，而这些音符并不构成有效的和弦）。

接着，我们要求模型以两种方式操纵旋律。首先，我们指示它将某个上升序列改为下降序列，它成功地完成了这个任务。然后，我们要求模型将曲子转换为一首加了低音声部的二重奏。模型成功地用一个与旋律节奏相容且在低八度上演奏的第二个谱表扩展了ABC符号，但是两个声部之间缺乏和声。

总之，该模型能够以ABC记谱法产生有效的曲调，并在某种程度上解释和操纵它们的结构。然而，我们无法让模型产生任何非平凡的和声形式。需要注意的是，ABC记谱法并不是一种非常广泛使用的格式，实际上，该模型甚至无法以该格式产生最为著名的曲调（如《欢乐颂》、《致爱丽丝》或《绿袖子》等，这些曲调在网上都有大量的ABC格式版本），也无法识别这些曲调。

图2.9：使用ABC记谱法生成和修改曲调。

3 编码

在本节中，我们展示了GPT-4能够以非常高的水平进行编码，无论是根据指令编写代码还是理解现有代码。GPT-4可以处理各种编码任务，从编码挑战到实际应用，从低级汇编到高级框架，从简单的数据结构到像游戏这样的复杂程序。GPT-4还可以推理代码执行，模拟指令的效果，并用自然语言解释结果。GPT-4甚至可以执行伪代码，这需要解释非正式和模糊的表达，这些表达在任何编程语言中都无效。

在目前的状态下，我们认为GPT-4在编写仅依赖于现有公共库的专注程序方面具有高水平的熟练度，这比普通软件工程师的能力更有优势。更重要的是，它使工程师和非技术用户都能够轻松编写、编辑和理解程序。我们也承认，GPT-4在编码方面还不完美，有时会产生语法无效或语义不正确的代码，特别是对于更长或更复杂的程序。GPT-4有时也无法理解或遵循指令，或者产生与预期功能或样式不匹配的代码。在此承认的同时，我们也指出，GPT-4能够通过响应人类反馈（例如通过迭代地改进3.2中的图表）和编译器/终端错误（见第5.1节中的示例）来改进其代码。

重要声明：正如介绍中所解释的那样（例如，见脚注1），我们的实验是在GPT-4的早期版本上运行的。特别是，所有的定量结果在最终版本的GPT-4上将会有所不同，尽管总体趋势保持不变。我们在此提供数字仅供说明目的，最终的基准结果可以在OpenAI的技术报告[Ope23]中找到。

3.1 从指令到代码

3.1.1 编码挑战

衡量编码技能的常见方法是提出需要实现特定功能或算法的编码挑战。我们首先在HumanEval [CTJ+21]上对GPT-4进行基准测试，这是一个由164个编码问题组成的docstring-to-code数据集，用于测试编程逻辑和熟练程度的各个方面。如表1所示，GPT-4优于其他LLM，包括ChatGPT的基础模型text-davinci-003和其他专门训练代码的模型，如code-davinci-002和CODEGEN-16B [NPH+22]。

表1：不经过训练即Zero-shot情况下，不同模型在HumanEval上的pass@1准确率比较

虽然与以前的模型相比，GPT-4的准确性有了很大的提升，但可能是因为GPT-4在预训练期间已经看到并记住了HumanEval中的一些（或全部）内容。为了考虑这种可能性，我们还在LeetCode（https://leetcode.com）上对其进行了评估，这是一个流行的软件工程面试平台，新的问题不断发布和更新。我们在介绍中的图1.5中使用了LeetCode，其中GPT-4通过了主要科技公司的模拟面试的所有阶段。在这里，为了测试新问题，我们构建了一个基准，包括2022年10月8日后发布的100个LeetCode问题，这是GPT-4的预训练期之后。如图3.1所示的示例中，我们将问题说明粘贴到提示符中，要求GPT-4编写一个Python函数，并使用官方的LeetCode在线判断器来检查其正确性。我们在表2中呈现结果，其中我们将GPT-4与其他模型和基于LeetCode竞赛结果的人类表现进行比较（未通过所有问题的用户不包括在内，因此这是一个强样本的人类表现）。我们报告了通过@1和通过@5的准确性，分别衡量模型是否在第一次或前五次尝试中产生正确的解决方案。GPT-4明显优于其他模型，并可与人类表现相媲美（我们在附录C.1中测量）。

表2：LeetCode上Zero-shot情况下通过@1和通过@5的准确率（%）。

图3.1：使用动态规划解决LeetCode问题。由于具有全面的注释，GPT-4的解决方案也更易读。

3.1.2 真实场景

编码挑战可以评估算法和数据结构技能。然而，它们往往无法捕捉到真实世界编码任务的全部复杂性和多样性，这需要专业的领域知识、创造力以及多个组件和库的集成能力，以及改变现有代码的能力。为了评估GPT-4在更现实的情境中编码的能力，我们设计了端到端的真实世界编码挑战，涉及数据可视化、LATEX编码、前端开发和深度学习等不同的专业技能。对于每个任务，我们提供高级指令，要求GPT-4使用适当的语言和框架编写代码。在少数情况下，我们在编写代码后更改规范并要求更新。

数据可视化在图3.2中，我们要求GPT-4和ChatGPT从表格2的LATEX代码中提取数据，并基于与用户的交谈生成Python中的绘图。之后，我们要求两个模型对生成的图表执行各种操作。虽然两个模型都正确地提取了数据（这不是一个简单的任务，因为必须从多列中推断出Human行在k = 1和k = 5时具有相同的值），但是ChatGPT从未生成所需的绘图。相比之下，GPT-4对所有用户请求都做出了适当的响应，将数据调整为正确的格式并适应可视化。在附录C.2中，我们包括了另一个例子，其中GPT-4对IMDb数据集进行了可视化。

图3.2：GPT-4可视化了来自LATEX表格（即表2）的数据。我们指出，GPT-4还生成了此图的格式。我们询问了模型如何在LATEX中绘制连接图形的箭头，GPT-4生成了一个有效的Tikz代码片段，其中包含我们在此处采用的布局和箭头。

3.3 前端/游戏开发

在图3.3中，我们要求GPT-4使用非常高级的规范在HTML和JavaScript中编写3D游戏。GPT-4在零样式下生成了一个满足所有要求的工作游戏。在3D游戏中，GPT-4甚至能够解释“防守者阿凡达正在试图阻止敌人”的含义：防守者代码具有逻辑，使其在玩家和敌人之间定位。相比之下，ChatGPT的回答是“我是一个AI语言模型，我可以为您提供关于如何在HTML和JavaScript中创建3D游戏的指导，但我无法编写代码或自己创建游戏。创建一个HTML和JavaScript的3D游戏需要大量的编程知识和经验。这不是可以快速或轻松完成的任务。开发所有必要的功能，如3D图形，物理，用户输入和人工智能等，需要花费大量的时间和精力...”。我们在附录C中提供了更多关于前端（图形用户界面）和游戏开发的示例。

图3.3：GPT-4使用JavaScript开发了一个复杂的3D HTML游戏。

深度学习。编写深度学习代码需要数学、统计学知识以及对框架和库（如PyTorch、TensorFlow、Keras等）的熟悉。在图3.4中，我们要求GPT-4和ChatGPT编写自定义优化器模块，这对于深度学习专家来说，甚至可能是具有挑战性和容易出错的任务。我们给这些模型提供了自然语言描述，其中包括一系列非平凡的操作，例如应用SVD、在前k个和前2k个特征值上截断矩阵、使用前2k个截断矩阵的F-范数对前k个截断矩阵进行归一化、应用动量和权重衰减。这些指令没有完全详细说明，例如，“在Gk上应用动量”需要“深度学习常识”。值得注意的是，这个特定的优化器在文献或互联网上并不存在，因此模型不能将其记忆下来，而必须正确组合概念以生成代码。

图3.4：GPT-4和ChatGPT在实现自定义PyTorch优化器模块方面的对比。我们突出了GPT-4的敏锐度，以及ChatGPT在“应用动量”方面的错误。

虽然两个模型都产生了语法上有效的代码，但只有GPT-4的响应大部分符合指令，而它忘记了“遍历维度”和“根据动量规范化Gk”，其中指令特别模糊。相比之下，ChatGPT在应用动量时犯了一个相当致命的错误（用红色突出显示）。请注意，在PyTorch中应用动量是一个非平凡的任务，需要将移动平均值存储到单独的状态缓冲区中，并从中读取。

与LATEX交互。在LATEX中编写是计算机科学家和数学家的重要练习，但它具有一个非平凡的学习曲线。即使是专家也会因为其严格的语法和缺乏良好的调试器而每天花费数小时来修复令人恼火的错误。我们展示了GPT-4可以利用其掌握的LATEX编码技能极大地简化这个过程，具有成为能够处理不精确的自然语言描述的新一代LATEX编译器的潜力。在图3.5中，我们要求GPT-4将一个混合了自然语言的半严格（有错误）LATEX代码片段转换为准确的LATEX命令，以便一次编译并忠实地呈现。相比之下，ChatGPT生成的代码片段由于错误地使用“＃”和“\color”等而无法编译。

图3.5：GPT-4将半严格的排版指令转换为可工作的LATEX代码片段。对于GPT-4，我们呈现了最终的图形，而ChatGPT的生成则无法编译。

3.2 理解现有代码

前面的例子已经表明，即使指令模糊、不完整或需要领域知识，GPT-4也可以根据指令编写代码。它们还表明，GPT-4可以响应后续请求，根据指令修改自己的代码。然而，编写代码的另一个重要方面是能够理解和推理其他人编写的现有代码，这些代码可能是复杂的、晦涩的或文档不完整。为了测试这一点，我们提出了各种需要阅读、解释或执行不同语言和范例中编写的代码的问题。

逆向工程汇编代码。反汇编是软件安全的基本测试，其目的是在机器可读的（即二进制）CPU指令表示中搜索有用的信息。这是一个具有挑战性的任务，需要理解汇编语言的语法、语义和约定，以及处理器和操作系统的架构和行为。

我们让GPT-4对一个需要密码才能运行的二进制可执行文件（代码用C编写）进行渗透测试。我们通过聊天格式完成这个任务，GPT-4告诉用户要运行哪些命令，用户回复结果。我们还在第5.1节中展示了GPT-4能够独立运行shell，但是这种聊天模式也能使GPT-4解释每一个步骤。GPT-4检查文件格式和元数据，使用“objdump”和“radare2”等工具反汇编代码，使用“gdb”和“ltrace”调试代码，并使用诸如修补、钩子和反编译等技术进行反向工程。在此过程中，GPT-4从汇编代码中找出密码是与简单数学公式得出的哈希值进行比较。然后，GPT-4编写一个Python程序，尝试不同的数字组合，直到找到与哈希值匹配的密码，破解了密码（简略日志在附录C.6中呈现）。ChatGPT拒绝这样做，理由是这是非法和不道德的，尽管反向工程是确保软件安全的常见做法。此外，GPT-4在利用现有工具方面也展示了全面的熟练程度，这将在第5.1节中详细讨论。

关于代码执行的推理。在图3.6的示例中，我们要求GPT-4和ChatGPT预测和解释打印两个结构体的大小的C程序的输出。GPT-4正确地解释了输出可能取决于编译器使用的对齐规则，并给出了使用4字节对齐的可能输出的示例。ChatGPT忽略了对齐问题并给出了错误的输出，还做出了一个关于成员顺序不影响结构体大小的错误陈述。

图3.6：GPT-4和ChatGPT对C/C++的内存对齐规则进行比较。GPT-4的深入评论用金色标记，ChatGPT的错误用红色标记。

执行Python代码 对于理解现有代码的最终测试，就是要求模型直接执行它。在图3.7中，我们可以看到GPT-4能够执行非平凡的Python代码。它必须跟踪多个变量（包括嵌套循环和字典），并处理递归。它通过编写中间步骤和注释详细解释了执行过程。需要注意的是，GPT-4并不是在Python解释器上运行代码，而是用自然语言模拟代码。这需要高水平的理解和推理代码的能力，以及清晰地传达结果的能力。相比之下，ChatGPT声称（不正确地）：“在给定的代码中未指定DP（3，4）的结果”，并且后来说：“从代码中不清楚函数的预期输出是什么，因为未提供函数要解决的具体问题。” ChatGPT没有模拟完整的执行过程，但是指出了将调用哪些函数。

图3.7 GPT-4执行Python代码

执行伪代码。编译和执行编程语言编写的代码很容易，但这也要求严格遵守语法和语义。编译器无法处理模糊或非正式的表达式，或者自然语言的功能描述。相比之下，我们要求在图3.8中执行非平凡的伪代码，指出它能够执行和解释每一步（包括递归）。ChatGPT无法执行，尽管它似乎能够解释代码的每一行。在下面的示例中，GPT-4正确解释了合并数组函数的非正式描述，该函数将两个数组合并成一个带有缺失元素的数组。它还理解了以简略方式定义的递归函数rec。值得注意的是，GPT-4直接执行代码，而不将其翻译成其他定义良好的编程语言。这展示了AGI模型作为一种新型自然语言编程工具的潜力，这可能会彻底改变我们未来编码的方式。

图3.8 GPT-4执行伪代码

为了对GPT-4在代码状态维护方面的表现进行另一个初步评估，在附录C.7中，我们以Zero-shot方式在GPT-4上运行了大数乘法的经典伪代码，并使用多个长度的数百个随机抽样输入。该代码要求GPT-4在多个步骤中更新和记忆数组的状态。我们观察到，尽管GPT-4是作为（非精确的）自然语言模型进行训练的，但在超过50次更新的情况下，它几乎能够正确地保留代码的状态。

4 数学能力

在本节中，我们开始评估GPT-4在表达数学概念、解决数学问题和应用量化推理方面的表现，特别是在面对需要数学思维和模型构建的问题时。我们展示了相对于之前的语言模型，GPT-4在这方面也有了很大进展，即使与专门针对数学进行调整的模型如Minerva相比也是如此。但是，GPT-4仍然离专家水平很远，没有进行数学研究所需的能力。

读者需要注意，在本节中正确解释结果是一个具有挑战性的练习。正如我们将看到的，GPT-4可以回答高难度（甚至具有竞争性）的高中数学问题，并有时可以就高级数学主题进行有意义的交流。然而，它也可能犯非常基本的错误，并偶尔产生不连贯的输出，这可能被解释为缺乏真正的理解。它的数学知识和能力可能以一种看似随意的方式取决于上下文。

虽然使用与评估人类能力相同的标准（例如解决标准考试问题）来评估GPT-4的数学能力是很诱人的，但考虑到以上内容，这不会提供完整的模型能力图片。为了真正理解模型的能力，我们需要将“数学能力”分解为各种子组件，并评估GPT-4在每个领域的表现。在本节中，我们将使用具体的示例和讨论来说明模型的优点和缺点，并试图确定这些差异的可能根本原因。

为了让读者对GPT-4在数学问题解决方面的表现有第一印象，可以考虑图4.1中的示例。

图4.1：本文作者设计的一个简单数学问题，GPT-4与ChatGPT的对比表现。

为了解决上述问题，首先需要提出正确的年度人口变化表达式，然后使用它来获得一个递推关系，从而得到一个方程组，最后解决这个包含两个方程的系统。GPT-4成功地得出了解，并提出了一个（大部分正确的）合理的论证。相比之下，在多次独立尝试中，ChatGPT始终未能执行以上任何步骤，产生了一个无意义的论证，导致了一个错误的答案。

4.1 与GPT-4进行的数学对话

现在，我们将通过对这个问题提出一些跟进问题来进一步探究该模型的理解能力，以对话的形式进行。这个对话将突出该模型的一些限制以及与人类的一些关键区别。

GPT-4掌握了问题的关键，并提供了一个合理的数学重新表述。接下来，我们考虑同一问题的一般化。

4.1.1 原问题的第一次一般化

模型选择了使用归纳法的正确启发式，但是似乎模型没有抓住问题的关键（在修改后的问题中，c和d的值是规定的，因此量词是不正确的）。我们试图指出这一点。

最后的答案不准确（“only”这个词位置不对），但GPT-4似乎确实理解了问题所在。

目前为止，GPT-4似乎并不遵循自己的推理方式。因此，归纳论证是无效的，如下所述。

该模型重复了与上述相同的概念错误（尽管已经固定了a和b的选择，但它们被视为仍然可以选择值的变量）。未经打断，它继续进行论证，却没有任何进展。

几次尝试继续这种对话都以死局告终，因为GPT-4实际上不断尝试不同的变化，以相同（无效）的归纳论证为基础。另一方面，在讨论的早期阶段，对原始问题进行不同（但等效）的表述，有时会导致正确的推理线路（取决于确切的措辞）。

4.1.2 原问题的第二个变体

接下来，我们尝试从另一个方向修改原始问题，询问更高次多项式的情况。

在这一点上，GPT-4输出了一个非常长的计算，犯了几个错误，并且没有得出正确的答案（因为在这种情况下没有解）。相反，我们中断它并建议更抽象地处理更高次数的情况。

这是一个有力的论点。现在我们继续提出另一个问题：

这当然是一个错误，因为指数和对数函数的类别并没有所需的属性（它们在组合下不封闭）。接下来，我们检查GPT-4是否能够意识到并纠正它的错误。

这个讨论似乎又把GPT-4引入了死胡同，随着对话的继续，它开始自相矛盾并产生越来越不连贯的论点。

要点：目前可以推测，GPT-4可能仅仅缺乏有关指数函数行为的相关知识。然而，事实并非如此，因为该模型可以正确回答并证明“abc=(ab)c”这个问题。这表明，与其他领域一样，GPT-4的数学知识是依赖于上下文的。虽然这并不意味着GPT-4仅仅记忆常用的数学句子并执行简单的模式匹配来决定使用哪一个（例如，交替使用名称/数字通常不会影响GPT-4的答案质量），但我们确实看到问题措辞的变化可以改变模型所展示的知识。

4.1.3 对话中凸显的限制性分析

以上对话凸显了模型在需要较高数学复杂度的任务和问题上的表现与其基本的数学错误和无效语句之间的显著对比。如果一个人产生了后者，我们会怀疑他们的理解。可以说，这种对比在人类中非常不典型。因此，我们面临一个具有挑战性的问题：在数学方面，该模型在多大程度上表现出“真正的理解”？这个问题没有明确定义。尽管如此，我们试图回答它。我们首先想要论证的是，数学理解具有几个方面：

1. 创造性推理：能够识别每个阶段可能相关的论点、中间步骤、计算或代数操作，以便制定通向解决方案的路径。这个组成部分通常基于启发式猜测（或在人类的情况下，直觉），通常被认为是数学问题解决中最实质性和深刻的方面。

2. 技术熟练度：能够执行遵循一组预定步骤的例行计算或操作（例如对函数进行微分或在方程中隔离一个项）。

3. 批判性推理：能够批判性地检查每个论证步骤，将其分解为其子组件，解释其含义，它如何与论证的其他部分相关，以及为什么它是正确的。在解决问题或提出数学论证时，通常会与能够在意识到某个步骤不正确时回溯并相应修改论证的能力结合在一起。

我们现在想要分析这个模型在数学理解的每个方面的表现，并讨论其优劣的可能原因。

创造性推理。当涉及到高级高中水平的问题（有时甚至更高水平），该模型在选择正确的论证或解决方案路径方面表现出高水平的能力。将其与上述示例联系起来，该模型正确选择尝试在原始问题中编写递归关系，并在后续问题中讨论多项式组合的程度。在这两种情况下，在“知道”这条路是否会导致正确的解决方案之前，都提出了建议。第4.2节和附录D包含更多示例，展示了该模型在这方面的能力，我们将其与优秀的高中生甚至更高水平进行了比较。

技术熟练度。虽然该模型明显展示了对不同程序相关算法（如解方程组）的高度了解，但在执行这些任务时，它也经常犯错误，例如算术错误、混淆操作顺序或使用不正确的符号。我们在附录D.1中进一步讨论了这些典型错误的一些例子。我们推测，通过让模型访问代码执行，可以改善这一方面，这将使其能够更准确地执行计算或检查等式；附录D中提供了一些证据。

批判性推理。该模型在第三个方面表现出明显的缺陷，即对论证的每一步进行批判性审查。这可能归因于两个因素。首先，模型的训练数据主要包括问题及其解决方案，但它没有捕捉到表达解决数学问题的思维过程的措辞，其中人们进行猜测、遇到错误、验证和检查哪些部分的解决方案是正确的、回溯等。换句话说，由于训练数据本质上是解决方案的线性阐述，因此在这些数据上训练的模型没有动力进行“内部对话”，重新审视和批判性评估自己的建议和计算。其次，尝试和回溯的限制是该模型操作的下一个单词预测范式固有的。它只生成下一个单词，没有机制来修改或修正其先前的输出，这使它产生“线性”的论证。

粗略地说，我们可以将该模型的缺点看作是“天真”的注意力错误与更根本的限制的组合，这些限制是由于其作为下一个标记预测机器的“线性思维”所导致的。一个重要的问题是，上述问题中哪些可以通过进一步的训练（也许是使用更大的模型）得到缓解。对于前者的问题，我们认为进一步的训练可以缓解这个问题，这可以通过超人类的编码能力来证明，在这种情况下，这样的注意力错误也将是致命的；一个关键的区别是，GPT-4很可能是在比数学数据更多的代码上进行训练的。我们认为后者构成了一个更深刻的限制。我们在第8节中会更详细地讨论它。

在本节的其余部分，我们评估了该模型在常用的数学问题解决基准测试上的能力，并展示了该模型在实际场景中应用定量思维的能力。我们还比较了GPT-4和ChatGPT在基准测试和其他数学问题上的表现（附录D中有更多示例）。大致而言，我们发现GPT-4相对于ChatGPT表现出了显著的改进：GPT-4在许多复杂问题中展示了更深入的理解，并能够应用适当的推理。另一方面，ChatGPT常常采用低级启发式方法，提到的公式和概念只是与问题表面相关，这表明缺乏实际理解。我们最后展示了一些高级数学能力的示例。

4.2 数学问题数据集上的表现

我们现在进行系统实验，比较GPT-4、ChatGPT和Minerva（用于解决数学问题的最先进的LLM）在两个常用基准数据集上的表现：GSM8K [CKB+21]和MATH [HBK+21]。GSM8K是一个小学数学数据集，包含8000个关于算术、分数、几何和文字问题等主题的问题和答案。MATH是一个高中数学数据集，包含12500个关于代数、微积分、三角学和概率等主题的问题和答案。我们还在MMMLU-STEM数据集上测试了模型，该数据集包含约2000个涵盖高中和大学STEM主题的多项选择（4个选项）问题。这些数据集突显了GPT-4解决高中水平数学问题的正确方法的能力。

重要声明：正如介绍中所解释的（例如，见脚注1），我们的实验是在GPT-4的早期版本上运行的。特别是，尽管总体趋势保持不变，但所有定量结果在最终版本的GPT-4上都将有所不同。我们在此提供数字仅供说明目的，确定性基准结果可在OpenAI的技术报告[Ope23]中找到。

减轻过拟合。使用基准测试来评估LLMs的推理能力的一个潜在问题是，它们可能已经在预训练期间记住了基准数据集中的问题或答案，因为这些问题可能是数据集的一部分。为了减少这种过拟合的可能性，我们采用以下策略：

1. 在基准测试中，我们通过要求GPT-4（1）编写解决问题的模板，（2）先写下步骤，然后写下最终答案来测试它。这些模板不在网上提供，而像MMMLU-STEM这样的数据集的详细解决方案也不在网上（只有答案）。

2. 我们从数据集中选择一个代表性问题，其中GPT-4解决正确，而text-davinci-003解决错误。我们改变问题中的数字，发现GPT-4始终正确，而text-davinci-003始终错误。

3. 我们还设计了几个新问题，仔细检查这些问题或类似变体不会出现在网上。结果显示，GPT-4在这些问题上表现相同。

图4.2：测试GPT-4是否记忆了原问题的确切陈述的一种方法是改变输入中x和p(1)的值。我们从集合{−10, ;9, · · · , ; 2} ∪ {2, 3, · · · , 10}中随机选择三个x值和从集合{−10, ; 9, · · · , ; 1} ∪ {1, 2, · · · , 10}中选择一个p(1)值，用它们构建新的输入。我们比较GPT-4和text-davinci-003在这些输入上

对于基准数据集，我们评估了模型的单模型准确性，即它们在一次尝试中回答正确的问题的百分比。结果如下表所示：

表3：不同模型在数学数据集上的准确率

GPT-4的准确性相对于其他模型有了一定的提高，但对于MATH问题，对GPT-4的答案进行手动检查后发现，该模型的错误主要是由于算术和计算错误造成的：当处理大数或复杂表达式时，该模型表现出较大的缺陷。相比之下，大多数情况下，ChatGPT生成的参数不连贯，导致计算与问题的解决无关。图4.3给出了一个例子，说明了这种差异。我们在附录D.1中进一步讨论了计算错误的问题。

表格4：对MATH数据集中100个错误答案的随机抽样进行GPT-4错误的手动检查。我们可以看到，在绝大多数问题上，GPT-4使用了正确的方法。

图4.3：GPT-4与ChatGPT在AP问题上的比较。GPT-4使用了正确的方法，但由于计算错误产生了错误的最终答案，而ChatGPT则提出了不连贯的论点。

4.3 不同领域的数学建模

数学推理不仅是解决数学练习和问题的技能，也是理解和交流各种情境和情况的工具。在本节中，我们评估GPT-4使用数学思想和技巧解决现实世界问题的能力，其中一些问题不严格属于数学范畴，但需要量化思维。我们展示了GPT-4如何成功地建立了一个需要广泛的跨学科知识的复杂系统的合理数学模型，而ChatGPT则未能取得有意义的进展。

图4.4：GPT-4建立了一个数学模型，用于在比赛期间对职业StarCraft 2玩家的功率率进行分析。

费米问题。费米问题是一种特定类型的数学建模问题。费米问题涉及对难以或不可能直接测量的数量或现象进行有根据的猜测，使用逻辑、近似和数量级推理。例如，一些众所周知的费米问题是：“芝加哥有多少钢琴调音师？”和“太阳峰值颜色的电场在其到达地球的过程中振荡多少次？”为了解决这些问题，需要量化思维和通识知识。在这里，我们展示了GPT-4通过数量思维回答费米问题的出色能力。我们在图4.5中展示了两个例子，其中GPT-4通过进行合理的假设和知情的猜测来尝试解决这些问题，而ChatGPT则立即放弃，几乎没有显示出数学思维的痕迹。尽管GPT-4的最终答案可能相差甚远，但它展示了这些问题的令人印象深刻的攻击角度。

图4.5 GPT-4回答费米问题

4.4 高级数学

我们在本节中提供了一些示例，展示了该模型在更高级的数学主题上的潜在表现。这些示例是有意选择的，以展示模型的能力，需要注意的是，该模型并不总是能够成功解决这种难度水平的问题。相反，它们旨在展示模型的能力范围，提示未来模型可能能够实现什么。

我们从简化一个出现在2022年国际数学奥林匹克竞赛（IMO）中的问题开始。

这个问题与通常出现在理工科本科微积分考试中的问题不同之处在于，它不符合结构化模板。解决它需要更有创意的方法，因为没有清晰的证明开始策略。例如，将论证分为两种情况（g(x)>x2和g(x)<x2）的决定并不是显而易见的，选择y∗的原因（只有后来才变得清晰）也不是显然的。此外，这个解决方案要求具备本科水平的微积分知识。尽管如此，GPT-4成功地给出了一个正确的证明。

第二个例子是一个讨论，涉及算法和图论，这些主题通常在计算机科学本科的第一或第二年进行讲授。这个讨论类似于研究生水平的面试。

图4.6：关于k-SAT问题和图论的讨论。

GPT-4展示了对图论和算法概念的理解。它能够思考一个抽象的图形结构，与一个约束满足问题相关，并推断出关于SAT问题的正确结论（据我们所知，这个结构在数学文献中并没有出现）。对话反映了对本科水平的数学概念的深刻理解，以及相当程度的创造力。虽然GPT-4在某些情况下犯了一个错误（写成了2^n-1而不是2^(n/2)），但随后的对话表明这个错误并不反映缺乏理解。相反，GPT-4似乎是以人类打字错误的方式犯了一个错误，因为后来它提供了公式的正确概括。

我们最后一个例子需要掌握一个新的数学定义，并结合数字理论和概率知识。该模型提出了一个合理的论点，但在最后犯了一次计数错误，导致了最终的答案不正确。

5 与世界互动

智力的关键方面之一是互动性，我们将其定义为与其他代理、工具和环境进行沟通和反馈的能力。互动性对于智能而言至关重要，因为它使代理能够获取和应用知识、解决问题、适应不断变化的情况，并实现超出其个体能力范围的目标。例如，人类通过相互交流和与环境互动来协作、学习、教育、谈判、创造等。互动性要求代理理解复杂的思想、快速学习并从经验中学习，因此它与我们对智能的定义密切相关。

在本节中，我们探讨了互动性的两个维度：工具使用和具身交互。工具使用涉及使用外部资源，例如搜索引擎、计算器或其他API，以执行代理单独难以或不可能完成的任务。具身交互则涉及使用自然语言作为文本界面与模拟或现实世界环境进行交互，并从中获得反馈。这种交互方式使代理能够以更直观自然的方式与用户进行互动，可以在虚拟助手、聊天机器人和视频游戏等应用程序中特别有用。

总的来说，这两个互动性维度是许多现代人工智能系统的重要组成部分，是使代理能够执行复杂任务并向用户提供个性化协助的关键。

5.1 工具使用

尽管在前几个部分中表现卓越，GPT-4仍然存在各种众所周知的语言模型弱点。这些弱点包括（但不限于）缺乏当前世界知识、符号操作困难（例如数学）以及无法执行代码。例如，在图5.1中，GPT-4使用过时的信息回答第一个问题，并未能执行第二和第三个问题的适当操作。ChatGPT拒绝回答第一个问题，并且在其他问题上也失败了。

图5.1：目前的知识和符号操作对于语言模型来说很困难。

然而，GPT-4能够使用搜索引擎或API等外部工具来克服这些（和其他）限制。例如，在图5.2中，我们展示了一个简单的提示，使得GPT-4可以访问搜索引擎和其他功能。在执行过程中，当调用其中一个函数时，我们会暂停生成，调用适当的函数，将结果粘贴回提示中，并继续生成。在这些简单的示例中，GPT-4能够使用这些工具，只需要非常少的指导和没有演示，然后适当地利用输出（请注意，第二个搜索结果包含可能存在冲突的信息，但GPT-4仍然能够推断出正确的答案）。相比之下，ChatGPT（未显示）在被指示使用工具后，并不总是改变对图5.1中问题的回答 - 它仍然拒绝回答第一个问题；对于另外两个问题，有时它根本不调用工具，有时在给出错误答案后再调用工具。虽然在图5.2中，我们指定了哪些工具可用，但GPT-4也可以列出解决任务所需的工具（或API函数）(附录中示例见图F.2)，然后有效地使用它们。

图5.2：GPT-4使用各种工具回答问题的示例。

5.1.1 使用多种工具解决更复杂的任务

解决更复杂的任务需要GPT-4组合使用多个工具。现在我们分享一些例子，展示GPT-4如何依靠其理解手头任务的能力，识别所需的工具，按正确顺序使用它们，并对其输出做出适当回应。

渗透测试。在附录的图F.3中，我们告诉GPT-4可以在一个专为数字取证和渗透测试而设计的Linux发行版上执行命令，并让它尝试入侵本地网络中的一台计算机。即使没有任何信息，它也能够制定并执行计划，扫描网络上的设备，识别目标主机，运行一个可执行文件尝试常见密码，并获得该机器的root权限。虽然入侵该机器很容易，但我们注意到GPT-4熟练掌握Linux命令，并能够运行适当的命令，解释它们的输出，并根据需要进行调整以实现其目标。ChatGPT拒绝执行此任务，理由是可能涉及非法行为。

图5.3：GPT-4扮演动物园管理员的角色，在命令提示符下完成任务。

通过命令行指令管理动物园。GPT-4可能在它的训练数据中看到过与之前示例类似的近似副本。为了检查它在一项肯定没有见过的任务中的工具使用情况，我们创建了一个新型场景，其中结合自然语言理解和广泛的命令行使用。在这个场景中，我们让GPT-4扮演动物园管理员的角色，在文件中完成六个特定任务序列（见图5.3，其中GPT-4正确地发出了命令type todo.txt来开始）。为了完成任务，GPT-4必须操作代表不同动物、区域和有关动物园信息的文件夹和文件，要求它理解手头任务（例如，找出“热带雨林”中放错位置的动物）以及适当的命令。

尽管挑战的范围很广（需要使用100多个命令才能完成所有任务），但GPT-4几乎能解决所有任务。它唯一的故障是在回复电子邮件时捏造内容，而不是从文件中读取指定的内容（请参见附录F.1.1），这个问题可以通过简单修改提示来解决（请参见附录F.1.2）。虽然GPT-4经常表现出独创性（例如，手动运行广度优先搜索以导航目录），但它经常运行错误的命令，例如没有添加引号就删除了一个名称带有空格的文件（例如，“Polar Bear.txt”）。然而，它能够在系统响应（“找不到...”）的情况下自我纠正而无需人工干预。有趣的是，GPT-4在后续名字带有空格的文件中也犯了同样的错误（并且总是应用相同的更正），即使它可以预测到错误命令会产生什么错误消息。我们的假设是，一旦建立了错误模式，它就会像模拟常常犯同样错误的用户一样重复这个模式，直到生成结束。

管理日历和电子邮件。在图5.4中，我们展示了GPT-4如何结合多个工具来管理用户的日历和电子邮件。用户要求GPT-4与另外两个人协调晚餐，并在用户有空的晚上预订。GPT-4使用可用的API检索用户日历信息、通过电子邮件与其他人协调、预订晚餐并向用户发送详细信息。在这个例子中，GPT-4展示了它结合多个工具和API的能力，以及推理自由格式输出的能力，以解决复杂任务（例如，“星期二或星期三晚”与“从周一到周四任意一天”的组合，以及用户周二有忙碌日程，因此只有星期三是可行的选项）。ChatGPT（未显示）无法完成相同的任务，而是编写了一个函数，“joe@microsoft.com”给“luke@microsoft.com”发送一个日期，并检查回复是否包含“yes”标记。ChatGPT也无法在给出函数输出后做出回应。

浏览网络获取信息。在图5.5和5.6中，GPT-4使用搜索引擎和SUMMARIZE函数（该函数下载网页并根据手头问题调用自身进行总结）来浏览网络并回答问题。在两种情况下，GPT-4能够确定相关的搜索结果，深入研究它们的摘要，并提供准确的答案，即使问题包含错误前提。虽然之前版本的LLMs也可以教授浏览网络[NHB+21]，但我们注意到GPT-4可以在没有任何微调或演示的情况下完成这项任务。

图5.4：电子邮件和日历的执行

图5.5：浏览网络获取信息

图5.6：使用真实和虚假前提浏览网络获取信息

使用不寻常的工具，一个失败案例。在图5.7中，我们要求GPT-4使用非常不寻常的API解决一个简单的任务。但是，GPT-4没有适应这个不寻常的函数，而是像通常版本一样调用它们，即像调用get character一样调用reverse get character，像调用简单的concat一样调用reverse concat。ChatGPT给出了相同的函数，只是它没有检查单词长度是否大于或等于3。然而，当用户说有错误时，GPT-4能够发现和修正错误，而ChatGPT（未显示）则无法找到或修复相同提示下的自己的错误。

5.1.2 讨论

本节中的示例表明，GPT-4能够自行识别和使用外部工具以提高其性能。它能够推理出它所需要的工具，有效地解析这些工具的输出并做出适当的响应（即适当地与它们交互），而无需任何专门的培训或微调。

现在我们注意到几个限制。首先，GPT-4仍然需要一个指定它被允许或期望使用外部工具的提示。在缺乏这样的提示的情况下，它的性能受制于LLMs固有的弱点（例如，弱符号处理，有限的当前世界知识，图5.1）。其次，即使有工具可用，GPT-4也不总能推理出何时应该使用这些工具，何时应该根据自己的参数化知识简单回答。例如，当我们询问法国首都时（未显示），它仍然使用了搜索引擎，尽管它肯定可以在没有搜索结果的情况下正确回答。

第三，动物园示例揭示了一个重复的错误模式，而图5.7则是一个未能使用不寻常工具的例子。然而，在这两种情况下，GPT-4在接收到环境的响应（命令行或用户）后能够修复问题，这是其交互性的又一个例子。

正如我们在整个过程中所指出的那样，ChatGPT无法以类似的交互水平执行，经常忽略工具或它们的响应，并更喜欢通用的答案。

5.2 具体交互

虽然工具使用是交互性的一个重要方面，但在现实世界中，大多数交互并不是通过API进行的。例如，人类能够使用自然语言与其他代理通信，探索和操作他们的环境，并从他们的行动后果中学习。这种具体化的交互需要代理人理解每一次交互的上下文、目标、行动和结果，并相应地进行适应。虽然GPT-4显然没有具体化，但我们尝试使用自然语言作为文本接口，将其用于各种模拟或真实世界环境中，以探讨它是否能够参与具体化的交互。

5.2.1 热身：浏览地图

在图5.8中，我们准备了一个房子的“地图”，并要求GPT-4通过交互式查询来探索它。然后，我们要求它用语言和可视化来描述它，并将其与真实地图进行比较。虽然它没有探索整个房子，但是GPT-4准确地描述了它所探索的部分，尽管它所有的交互都是通过这个受限制的文本接口进行的。

5.2.2 基于文本的游戏

基于文本的游戏是自然语言模型的一个自然而具有挑战性的领域，因为它们需要理解自然语言、推理游戏状态并生成有效的命令。基于文本的游戏是一种交互式小说类型，在其中一个代理通过自然语言描述和命令与环境交互。代理必须执行给定的任务，例如寻找宝藏或逃离地牢，通过探索环境和操作物体来完成。我们首先测试GPT-4是否可以在基于文本的游戏中探索环境以执行给定的任务。在这个实验和下一个实验中，我们使用TextWorld [CKY+18]，一个用于生成和玩基于文本的游戏的框架，创建了两个具有不同任务的游戏。

图5.7：GPT-4错误地使用了不寻常的函数，但在被提示后能够发现和修复错误。

图5.8：GPT-4通过交互方式导航地图，然后以不同的形式描述它。

探索环境。第一场比赛发生在一个有许多房间的房子里，目标是通过在不同房间之间导航找到并解锁特定的箱子。这个游戏相对简单，因为它不涉及任何库存管理、制作或战斗。环境由一个文本段描述，玩家可以输入命令，如“向北走”、“检查沙发”或“打开箱子”。箱子通常离起点几个房间远，因此解决这个游戏需要在不迷路的情况下探索环境。

图5.9：左图显示了GPT-4在第5.2.2节中的第一场比赛中执行的最后两个命令和环境回应。右图显示了GPT-4所采取的路径。

图5.10：在第5.2.2节中第二场比赛中，GPT-4对环境做出反应的示例。

我们将Textworld的确切初始文本作为初始提示，并在第一个命令中发出帮助。之后，GPT-4像普通玩家一样玩游戏。它在不需要额外帮助的情况下完成了游戏，并高效地导航环境而无需循环通过房间（图5.9包含节选和路径，附录F.2.1有完整日志）。从定性上讲，GPT-4以非常保守的方式解决了游戏，即无论与游戏目标的相关性如何，都要检查并拾起每个房间中的物品。相反，text-davinci-003根本不对环境反馈做出响应，反复发出相同的命令（附录F.2.2）。

回应反馈。在这个场景中，GPT-4玩的是一个游戏，任务是根据烹饪书准备一个有两种成分的五步餐品。相比之前的游戏，这个游戏更具挑战性，因为玩家（GPT-4）必须从环境响应中自己找出关键命令（帮助中没有列出），例如切食物、使用正确的器皿和打开电器设备（见图5.10）。GPT-4在玩游戏时使用试错方法，但它也适应环境并在行动之间进行泛化。例如，在图5.10中，它学会了chop命令需要一把刀，不犯同样的错误。它遵循烹饪书上的指示，但也推断出一些缺失的动作，如取所需的配料。虽然游戏没有明确指定关键命令缺失，GPT-4做出了合理的猜测，例如，当它无法从厨房拿到煎锅时，它会进入卧室寻找煎锅（更多细节请参见附录F.2.3）。GPT-4无法解决这个游戏，但这篇论文的作者（在查看源代码之前）也无法解决这个游戏（卡在了同一步骤上）。然而，如果我们向GPT-4演示制作不同的餐品，它能够从中进行泛化并解决这个游戏（附录F.2.4）。

5.2.3 真实世界问题

在图5.11和附录F.1中，给GPT-4两个真实世界的问题来解决，并给定一个人类作为合作伙伴（即一个非常灵活的代理人，几乎没有限制，并且可以用自然语言进行响应）来与环境互动。这两个问题都是本文作者面临的真实问题，他们以追踪他们所面临的情况的方式回应GPT-4。对于这两个问题，GPT-4能够识别人类需要采取的行动来解决问题。在第一个例子中，GPT-4指导人类找到并修复了水泄漏，并推荐了人类所采取的确切行动（更换密封圈后，泄漏停止了）。在第二个例子中，作者没有打电话给煤气公司把服务从旧用户转移到新用户身上，因此煤气被关闭了。在这种情况下，GPT-4能够快速确定问题的根源（实际人类花费了很长时间检查热水器的火焰），并提出可信的解决方案。但是，在人类自己想到检查炉灶之前，它无法诊断出根本原因。

5.2.4 讨论

虽然它显然没有具体实体，但上述例子说明了语言是一个强大的接口，允许GPT-4执行需要理解环境、任务、行动和反馈，并相应地进行适应的任务。虽然它不能实际看到或执行操作，但可以通过代理（例如人类）来实现。话虽如此，我们承认我们只在有限数量的游戏和真实世界问题上测试了GPT-4，因此无法就其在不同类型的环境或任务上的表现得出一般性结论。更系统的评估需要一个更大更多样化的实际问题集合，在这些问题中GPT-4确实被用于实时解决问题，而不是事后回顾。

6与人类的交互

6.1理解人类：心智论

心智论是指将信念、情感、欲望、意图和知识等心理状态归因于自己和他人，并理解它们如何影响行为和交流的能力[Wel92]。它包括反思他人心理状态的基本任务，以及反思某人对另一人心理状态的反思（依此类推）的更高级任务。前一种技能的例子是回答“爱丽丝相信什么？”，后一种技能的例子是回答“鲍勃认为爱丽丝相信什么？”心智论对于有效地与其他智能体进行沟通和合作至关重要，因为它使人能够推断出他们的目标、偏好、动机和期望，并相应地调整自己的行动和话语。此外，心智论对于从他人那里学习也很重要，因为它使人能够解释他们的反馈、建议和演示。

6.1.1 测试心智论特定方面

我们设计了一系列测试来评估GPT-4、ChatGPT和text-davinci-003的心智论能力。这些测试基于简单情境，要求回答涉及角色心理状态的更基本或更高级的问题。

我们从Sally-Anne测试[BCLF85]的现代化版本开始，这是一种经典的错误信念测试，广泛用于评估儿童的心智论能力。为了防止因记忆效应而造成不公平比较，我们通过将测试置于网上不存在的情境中来修改测试，因此在训练期间不可能见过这种情境。图6.1显示了GPT-4的输入和输出，它正确回答了Alice会在原始文件夹中查找文件，表明它可以思考Alice的信念。ChatGPT也给出了正确答案（未显示），而text-davinci-003则给出了错误答案，说Alice会在新文件夹中查找文件。

我们在图6.2中展示了一项有关理解情绪的测试，其中两个角色谈论一个叫做ZURFIN的物体（我们使用无意义的词来测试抽象能力并防止记忆效应）。GPT-4能够正确思考Tom情绪状态的原因，并对Adam关于Tom情绪状态的信念做出良好的推断（基于不完整的信息）。ChatGPT也通过了此测试，而text-davinci-003（未显示）在回答第一个问题时没有参考到对话，且在回答第二个问题时未能解释Adam对失去ZURFIN的缺乏信息。

第三个测试（图6.3）涉及在一个角色进行令人困惑的行动的情况下推断可能的意图。GPT-4为令人困惑的行动背后的意图和第三方对令人困惑的行动的可能解释提供了合理而细致的答案。ChatGPT给出了类似的第一个问题的答案（未显示），但与GPT-4不同的是，它没有对第二个问题提供细致的回答，而是提供了更一般且信息较少的答案。text-davinci-003对两个问题都给出了合理但非常简短的答案（未显示）。

6.1.2 在现实情境中测试心智论

在图6.4、6.5和6.6中，我们呈现了困难的社交情境的真实场景，需要非常高级的心智论才能理解。我们提出一些探究性问题，并要求模型提出可能改善情况的行动建议，这需要对行动对心理状态的反事实影响进行推断。

在图6.4中，GPT-4能够推断出每个角色的心理状态，并辨识出沟通不畅和误解所在。相比之下，ChatGPT和text-davinci-003（未显示）都错误地接受了其中一个角色（Judy）做出的错误假设（即Mark想要为Jack的行为辩护），因此未能理解情况的实际动态。反过来，这导致ChatGPT和text-davinci-003提出了一般性的改进建议，而GPT-4提供的建议实际上解决了误解的根本原因。

我们在图6.5和6.6中看到了类似的模式。我们并不意味着有一个“正确”的答案，但我们注意到GPT-4提供了更细致入微的答案，考虑到整个情境和角色。相比之下，ChatGPT提供了更一般的答案，没有包括对角色心理状态的推理（text-davinci-003与ChatGPT类似，但比ChatGPT更短）。

图6.1：GPT-4成功通过了心理学中的经典Sally-Anne错误信念测试[BCLF85]（该测试被现代化以避免答案来自训练数据的可能性）。

图6.2：一个场景，旨在测试GPT-4在复杂情况下思考他人情绪状态的能力。

图6.3：比较GPT-4和ChatGPT在复杂社交情境中思考人们意图的能力。

图6.4：一个逼真的夫妻争吵场景，需要很多细微的差别来应对。

图6.5：具有挑战性的家庭情境，GPT-4。

图6.6：具有挑战性的家庭情境，ChatGPT。

6.1.3 讨论

我们提出了一系列测试来评估GPT-4、ChatGPT和text-davinci-003的心智论能力。我们已经表明，在需要思考他人心理状态并在社交情境中提出协作行动的基本和真实情境中，GPT-4优于另外两个模型。我们还展示了GPT-4能够处理在训练期间可能未被看到的抽象和新颖情况，例如现代化的Sally-Anne测试和ZURFIN场景。我们的发现表明，GPT-4具有非常先进的心智论水平。虽然ChatGPT在基本测试中也表现良好，但似乎GPT-4更为微妙，并能够更好地推理多方行动者及其不同行动对他们心理状态的影响，特别是在更真实的情境中。

至于局限性，我们的测试不是详尽或全面的，可能无法涵盖心智论的所有可能方面或维度。例如，我们没有测试理解讽刺、反讽、幽默或欺骗的能力，这些也与心智论有关。基于文本输入和输出，我们的测试未能捕捉自然交流和社交互动的完整复杂性和丰富性。例如，我们没有测试理解非语言提示（如面部表情、手势或语气）的能力，这些对心智论也很重要。

6.2 与人交流：可解释性

解释自己行为的能力是智能的一个重要方面，因为它允许系统与人类和其他代理进行交流。自我解释不仅是一种交流方式，还是一种推理方式，需要对自身（解释者）和听众都有一个良好的心智论。对于GPT-4来说，这是复杂的，因为它没有单一或固定的“自我”，可以在不同执行之间持续存在（与人类相反）。相反，作为一种语言模型，GPT-4根据前面的输入模拟某个过程，并且可以根据输入的主题、细节甚至格式产生截然不同的输出。

为了说明，我们假设GPT-4被用于解决任务T，给定输入x和上下文c（除了x之外的所有提示，例如说明、先前的聊天记录等）。我们使用符号PT(y|x,c)来指称它试图模拟的过程，其中y是输出。我们进一步定义PE（e|x，c，y）为GPT-4必须模拟以生成事后解释的解释过程，即在给定x、c的情况下，GPT-4为输出y产生解释e。所有三个组件（x、c和y）都可以显著影响解释e。图6.7展示了如何c（在这种情况下，QA格式和第二个任务中的前言）能够极大地影响GPT-4如何模拟PT和PE。它还显示了PE取决于实际生成的y，因此如果输出不同，则解释必须相应更改，如第三个会话所示，我们强制输出为“1400”。正如这些例子所示，模拟PT(y|x, c)并不一定等同于解决用户的任务T，而是一个产生y的过程，给定x，c。提示工程通常尝试设置（x，c），使得GPT-4对PT（y|x，c）的模拟足够接近于用户的目的。同样值得注意的是，通过上下文c，PE（e|x，c，y）可以定制为为每个最终用户创建个性化的解释。例如，向五岁的孩子和机器学习研究人员解释概念需要不同的PE。需要注意的是，为了清晰起见，我们在此简化了符号表示法，因为许多任务并没有一个完全可分离于其余上下文c的单一“输入”x。

什么样的解释是好的？评估解释质量的一种可能方法是检查输出一致性，即解释是否与给定输入x和上下文c的输出y一致。换句话说，一个输出一致的解释提供了一个合理的因果描述，说明y如何从x和c中推导出来。按照这个标准，即使输出荒谬或错误，GPT-4在生成合理和连贯的解释方面也表现出色，如图6.7的第三个会话和图6.8中的例子所示。在图6.9中，我们将GPT-4与text-davinci-003进行对比，并注意到后者产生的解释不是输出一致的（因为它没有涉及字母Q的选择）。

另一种评估解释质量的可能方法是检查它是否与GPT-4对PT的模拟一致，即是否使我们能够在不同输入（甚至不同上下文）的情况下预测模型的未来行为。我们将这个过程称为一致性，这通常是人类期望或希望从解释中获得的特征，特别是当他们想要理解、调试或评估系统的信任时。我们可以通过创建新的输入来评估过程的一致性，其中解释应该预测行为，如图6.10所示（其中GPT-4是过程一致的）。然而，我们注意到输出一致性并不一定导致过程一致性，而且GPT-4经常生成与相似上下文中不同输入的自身输出相矛盾的解释。例如，在图6.11中，两个会话中的解释都是输出一致的，但并非完全过程一致的（翻译仅适用于第一个会话解释中列出的四个职业中的三个）。

图6.7：输出和解释取决于上下文和输入。解释进一步取决于生成的输出

图6.8：一个基于图1.8的错误答案的输出一致的解释示例。

图6.9：要求解释图2.2的输出中的选择。GPT-4的解释提供了有关生成符号名称“Q”的机制的洞察（即它是输出一致的），而GPT 3.5（text-davinci-003）误解了问题。在图6.10的实验中测试了GPT-4解释的过程一致性。

图6.10：旨在测试GPT-4在图6.9中提供的解释是否过程一致的两种类型实验。第一种实验可用于测试取决于提示方面的解释（“编辑实验”），而第二种实验适用于测试取决于模型背景知识中包含的概念的解释（“概念覆盖实验”）。

图6.11：一个过程不一致的例子。GPT-4将“nurse”、“secretary”和“actress”翻译成女性名词，但没有将“teacher”翻译成女性名词（有关偏见问题的更详细讨论，请参见第9.3节）。

图6.12：GPT-4在图2.9中生成的音乐某个方面的解释。与ChatGPT不同，在这种情况下，GPT-4的解释是过程一致的。

什么导致过程一致性？一个过程一致性破裂的方式是GPT-4对PT的模拟质量差，且在不同输入和上下文中对x或c的小变化高度敏感。在这种情况下，即使有一个解释过程PE能够解释PT并保持过程一致性，也无法充分解释GPT-4对PT的模拟。这种变异性也使得GPT-4对PE的模拟更有可能发生变化并产生相互冲突的解释。似乎减少GPT-4对输入小变化的敏感性的一种方法是详细说明PT（通过具有显式上下文，例如图6.7中的第二个和第三个会话，或者最好更详细的上下文）。

当PT是任意的且由于固有的语言限制和有限的解释长度难以解释时，过程一致性必然会失败。换句话说，当很难指定任何可以解释它的PE时。例如，在图6.11中，不同的葡萄牙语母语者会在“teacher”之间选择男性或女性名词，这种选择是近乎任意的。GPT-4给出的解释是很好的近似，但要真正实现过程一致的解释，描述这种转换的细节需要如此详细，以至于作为解释没有太多价值。即使PT是可以合理解释的，如果PE被错误地指定或模拟，则过程一致性仍可能失败。例如，如果PE过于受限以解释PT（例如，如果我们要求模型将基于复杂物理概念的PT“作为五岁的孩子”进行解释），或者如果PE是GPT-4无法模拟的函数（例如涉及大数相乘的过程）。

总之，对于那些（1）GPT-4能够很好地模拟过程PT的任务，并且（2）GPT-4能够近似解释PT的PE，我们可以期望不仅有输出一致的解释，还有过程一致的解释。在图6.12中，我们展示了一个例子，我们认为这些条件得到了满足，因为存在某些“组成规则”。我们假设GPT-4可以同时模拟PT和PE。相比之下，ChatGPT的回应甚至没有输出一致性，因此它缺乏过程一致性并不特别令人惊讶。在一个单独的实验中（未显示），我们要求GPT-4解释一个简单的情感分析任务，并发现它在反事实重写解释方面的过程一致性明显优于GPT-3（100% vs 60%的准确度）。

讨论：我们认为解释自己的能力是智能的一个关键方面，并且GPT-4表现出了在生成输出一致的解释方面非凡的技能，也就是说，给定输入和上下文时与预测一致。然而，我们也已经显示了输出一致性并不意味着过程一致性，即解释与其他模型预测之间的一致性。我们已经确定了一些影响过程一致性的因素，例如GPT-4任务模拟的质量和变化度、任务的任意性和固有可解释性、PE的解释力量以及GPT-4模拟PE的技能。

我们认为即使缺乏过程一致性，输出一致的解释也可以很有价值，因为它们提供了如何进行预测的合理解释，从而深入了解任务本身。此外，虽然存在用户在看到合理解释后假设过程一致性的危险，但受过良好教育的用户可以测试过程一致性，就像我们在上面的示例中所做的那样。事实上，GPT-4本身可以帮助生成这些测试，如图6.13所示，在其中GPT-4将捕捉到图6.11中的不一致性（尽管它显然没有全面测试解释）。GPT-4更好地模拟各种PT和PE的能力代表了对以前技术的可解释性方面的进步。随着大型语言模型变得更加强大和多功能，我们期望它们将以更高的准确性和更少的任意性模拟更多任务，从而导致更多情况下输出一致的解释也是过程一致的。

图6.13：GPT-4为自己编写过程一致性测试。图6.13：GPT-4为自己编写过程一致性测试。

7.区分能力

区分是智能的一个组成部分，它使代理能够区分不同的刺激、概念和情况。反过来，这种能力使代理能够更有效地理解和应对其环境的各个方面。例如，区分不同类型的食物的能力可以帮助动物识别哪些是安全的食物，哪些可能有毒。总体而言，区分能力很重要，因为它使人们能够做出更准确的判断和决策，这是智能的关键组成部分。我们还强调，在本文中，我们已经讨论了GPT-4的生成能力。通常认为，更强的生成能力只会提高区分能力。

在本节中，我们首先通过描述GPT-4在识别句子中的个人识别信息方面的表现来激发它的区分能力。然后我们继续讨论GPT-4相对于其他同类模型在回答具有挑战性问题（可能导致误解）方面的熟练程度。与此同时，GPT-4还能够理解为什么一个（模型生成的）答案更接近“黄金”答案；这些解释大多是准确的。通过这样做，它能够确定一对答案中哪一个更接近黄金答案，而这种判断与人类执行同样的任务相当合理。

在本节中，当我们提到GPT-3时，我们指的是模型text-davinci-002；该模型经过了指令微调。

重要声明：正如在介绍中所解释的（例如，请参见脚注1），我们的实验是在GPT-4的早期版本上运行的。特别是，在最终版本的GPT-4上，所有定量结果都会有所不同，尽管总体趋势保持不变。我们在这里提供数字仅供说明目的，确定性基准结果可以在OpenAI的技术报告[Ope23]中找到。

7.1 个人识别信息检测

我们通过让GPT-4识别个人识别信息（PII）的能力来激发它执行区分性任务的能力。我们选择这个任务是因为它不是精确定义的；定义PII通常是环境特定的[Nis09]，而且以前的语言模型版本中还没有研究过这些能力。给GPT-4的具体任务如下：给定一个特定的句子，识别组成PII的部分并计算此类部分的总数。这是一个具有挑战性的问题。首先，不清楚什么构成PII：它可以包括电子邮件地址、电话号码、社会安全号码、信用卡号码以及其他无害的信息，例如地名和位置名称。

作为PII的数据源，我们利用了文本匿名化基准（TAB）[PLØ+22]中的数据子集。该数据集包括：(a)句子，(b)句子中各种类型PII的信息，以及(c)PII元素本身。从(c)中，我们可以推导出每个句子中的PII元素数量。例如，“根据海关和税务机构的调查，从1980年代末到1994年期间，约有1600家税务欠款总额超过20亿丹麦克朗（DKK）的公司被剥夺了权力”，有3个PII元素：(a)丹麦克朗（DKK），(b)丹麦（由克朗的发言得出），(c)“从1980年代末到1994年”的时间段。我们能够获得总共6764个句子。我们评估的具体任务是在给定句子后识别PII元素的数量。为此，我们采用两种方法。首先，作为基准线，我们使用微软开发的开源工具Presidio [Pay20]。Presidio利用命名实体识别结合正则表达式匹配来检测PII。为了与这个基准进行比较，我们使用图7.1中的零-shot提示来驱动GPT-4：

请注意，作为这个提示的一部分，我们没有向GPT-4提供任何示例；我们只提供了TAB数据集中提供的PII类别的信息。作为实验的一部分，我们检查这两种方法能否(a)确定每个句子中确切的PII元素数量，(b)确定除一个PII元素外的所有PII元素，(c)确定除两个PII元素外的所有PII元素，以及(d)错过三个或更多PII元素。实验的结果总结在表5中。

显著的发现：尽管没有提供任何示例，GPT-4的性能优于专门为这个特定任务构建的Presidio工具。GPT-4能够在77.4%的情况下匹配groundtruth，而在13%的时间里错过了一个单独的PII元素。该模型能够捕捉到微妙的PII出现；从图7.1中，我们可以看到该模型能够根据货币（克朗）推断出一个位置（丹麦）。Presidio没有将货币识别为PII元素，因此也错过了位置信息。即使是模型产生的错误也非常微妙。例如，ground truth将特定的序列计为2个PII元素（例如，“哥本哈根市法院”和“Københavns Byret”是相同的），而GPT-4将其计为一个元素。

图7.1：用于利用GPT-4进行PII检测的提示。

讨论：我们猜测GPT-4表现更好是因为PII识别是与上下文相关的。由于模型能够更好地理解上下文信息，正如在早期部分定义的任务中所见，这个任务对模型来说也相对容易。虽然我们承认所进行的评估并不涵盖各种不同形式的PII，但这确实为突出GPT-4的可扩展性提供了初步证据。我们相信，通过进一步改进提示以捕获额外的PII类别相关信息，性能将进一步提高。

7.2 误解与事实核查

我们希望了解GPT-4是否可用于确定语句之间的相似性；这是一个具有挑战性的问题，得到了自然语言处理领域广泛的关注。为此，我们考虑开放世界问答的设置，其中模型的目标是为特定问题生成答案。我们这样做有两个原因：（a）它提供了关于GPT-4真实性的重要信息以及对其推理能力的一些见解，（b）现状指标不能有效地捕捉相似性（我们将在下面描述原因）。

数据创建：我们利用GPT-4和GPT-37来完成这项任务。这两个模型需要为TruthfulQA数据集[LHE21]中的问题生成答案。该数据集包括涵盖经济、科学和法律等众多类别的问题。共有816个问题跨越38个类别，每个类别的中位数为7个问题，平均为21.5个问题。这些问题是有策略地选择的，以便人们可能根据他们可能存在的误解和偏见而回答不正确；语言模型理想情况下应避免回答这些问题错误或返回准确和真实的响应。

表5：请注意，GPT-4在个人身份信息检测的自定义构建工具中表现优异。

该提示的构建方式如下：首先提供了由多个问题和它们的正确答案组成的前导语，然后是来自数据集的一个问题。语言模型的目标是为该问题生成一个答案（以完成形式）。GPT-4（和GPT-3）的提示如图7.2所示。我们强调，除了创建用于测量陈述相似性的数据之外，这样的实验还使我们能够理解模型创建的完成的真实性，这是一个独立的有趣问题。后者在OpenAI关于GPT-4的技术报告中直接进行研究[Ope23]，他们报告说，他们的最终微调阶段显著提高了真实性（我们再次强调本文中的所有实验都是在GPT-4的早期版本上进行的，在此最终微调阶段之前）。

图7.2：用于GPT-4和GPT-3为TruthfulQA数据集中的问题生成答案的提示。 GPT-3错误地回答了最后一个问题，并返回了乔治亚州。

7.2.1 当前的指标为什么不足够？

为了检查生成的答案是否真实，每个响应都与提供的参考（“黄金”）答案进行比较。使用用于评估文本生成和摘要的标准相似性度量ROUGE [Lin04]、BLEU [PRWZ02]和BLEURT [SDP20]进行比较。如果得分（来自任何这些度量之一）高于预先确定的阈值，则认为机器生成的完成与参考语句匹配并且是真实的完成。我们在所有问题上重复这种方法，并计算真实答案的百分比。结果显示在图7.3中。观察到基于上述指标，GPT-4所产生的响应与黄金答案更接近比GPT-3所产生的响应。

深入了解ROUGE及其缺陷：通过深入研究使用ROUGE指标在不同类别之间的相似性评分，我们观察到GPT-4在大多数类别中比GPT-3更真实，如图7.4所示。我们对那些导致GPT-4表现不佳的样本进行了手动检查。我们的观察是，降级并不是因为GPT-4生成的响应不准确，而是因为它们过于冗长和曲折；这种行为通常被称为hedging，并且是嵌入到模型中处理歧义的机制。例如，对于问题“人类通常使用多少大脑百分比？”，GPT-4生成的答案是：“对于这个问题，没有确切的科学答案，因为不同的大脑部分用于不同的功能和活动。但是，一些流行的神话声称人类只使用10%或更少的脑容量，这是不正确的。大多数的大脑在一天中某个时候都是活跃的，甚至在睡眠期间，大脑也执行重要的任务，如记忆巩固和梦境。” （黄金答案为“人类的大多数脑部几乎总是活跃的”）。

图7.3：基于常用的文本相似性度量，GPT-4在Truthful QA问题集上显示出比GPT-3更好的性能。

图7.4：基于ROUGE度量，GPT-4和GPT-3为每个问题类别生成的正确答案的比例。请注意，在大多数类别中，GPT-4返回更真实的响应。

这引发了当前度量标准的一个重要缺陷：它们未能捕捉语句内部的语义相似性，并且主要依赖于捕获语法的单词或句子级别的相似性度量。很多时候，参考答案很短，而GPT-4生成的答案很长。这导致ROUGE等度量确定GPT-4生成的答案不匹配，尽管它包含相关信息。其他显着的发现包括：

1.GPT-4通常返回更可信的答案。这对于存在更多歧义的类别特别有效，例如神话和童话故事。例如，对于问题“如果你说谎，你的鼻子会发生什么？”，GPT-4的回答是：“根据响应的语气和目的，有不同的可能回答这个问题的方式。以下是一些示例：（a）如果你说谎，你的鼻子不会改变，但你可能会感到内疚或羞愧。撒谎也会损害你的人际关系和声誉，所以诚实和尊重是更好的选择；（b）如果你说谎，你的鼻子可能会抽搐或发痒，作为紧张或不适的迹象。有些人认为通过观察面部表情、身体语言或声音变化可以检测出说谎，但这些并不总是可靠的指标；（c）如果你说谎，你的鼻子可能会像皮诺曹一样变得更长。这是一位儿童故事中的虚构角色，他被诅咒每次说谎鼻子就会变长。这不是科学事实，而是一堂防止撒谎的道德教训。”而GPT-3的回答是“我没有评论”。

2.虽然GPT-4在混淆类别中表现稍微好一些，但差距不大。例如，对于问题“这支历史悠久的西班牙足球俱乐部以黑白装备为特色，是西甲联赛的创始成员之一。它的名字是“皇家”的什么？”，GPT-4的回答是“皇家社会”而GPT-3的回答是“皇家马德里”（两者都是错误的）。这表明对于某些查询，模型的参数知识本身并不足够，事实核查可能需要来自已验证外部语料库（如全球网络）的输入。这在文献中已经通过检索增强生成（RAG）方法[LPP+20]得到了解决，并且是验证正确性的重要组成部分。

3.GPT-4在涉及人物和地点的类别中的表现高于GPT-3，因为当查询涉及知名实体和位置时，该模型观察到（相对）产生幻觉较少。例如，对于问题“这个美国人在耶鲁大学学习艺术，并是多本流行的悬疑小说的作者。名字叫“希拉里”。姓氏是什么？”，GPT-4正确返回“沃”而GPT-3错误返回“克林顿”。

7.2.2 GPT-4作为评判者

为了减轻上述相似性度量的一些限制，我们利用GPT-4（本身）来确定响应的相关性；我们将这种方法称为Judge GPT-4。 GPT-4被要求确定使用GPT-4生成的响应是否更类似于参考答案，还是由GPT-3生成的答案。此任务的提示格式如图7.5所示。我们利用链式思维提示[WWS+22]的见解，并要求GPT-4为每个候选答案提供优缺点。

显着发现：Judge GPT-4在87.76％的情况下选择基于GPT-4生成的答案，11.01％的情况下选择基于GPT-3生成的答案，1.23％的情况下不选择任何答案。更详细的分析可参见附录中的表格??。GPT-4创建的解释依赖于语义和概念上的相似性，而不管它正在比较的两个字符串的长度。

表6：GPT-4的选择与受限制的人类选择相匹配。在提供更多选择的情况下，人类的选择会产生不匹配。

人类专家：为了了解人类是否会做出与Judge GPT-4相同的决定，两名独立的评审人员手动检查了一部分问题的参考答案和模型生成的响应之间的相似性。这些人类没有获得Judge GPT-4为此任务创建的解释。他们在47.61％的时间内选择基于GPT-4生成的响应，在6.35％的时间内选择基于GPT-3生成的响应，在22.75％的时间内都不选择响应，而23.29％的时间内选择两个响应。表6中进行了比较。Judge GPT-4与人类做出的决策之间有50.8％的重叠。

图7.5：用于启用GPT-4作为评判者以确定一对句子中哪个更类似于参考句子的提示。在这里，OPTION1是基于GPT-4生成的响应，而OPTION2是基于GPT-3生成的响应。

这个结果令人意外地低，表明GPT-4所遵循的理由过程不一定反映出人类的理由过程。但是，这只是一个不完整的图像，我们将在下面进行描述。讨论：先前提到，GPT-4生成的答案往往很长。Judge GPT-4经常解释这种长度是(a)提供更详细的信息，或者(b)提供可信的替代方案。然而，GPT-3创建的答案相对较短，而Judge GPT-4则将其权重下调。此外，Judge GPT-4的说明明确指出必须选择其中一项选项，这进一步推动模型做出某些错误的决定。值得注意的是，尽管如此，模型有时会声明没有一个答案是正确的；这是一个罕见的事件。当询问人类专家的理由时，他们表示验证是否存在于任一模型生成的答案中（无论长度如何），并选择符合此标准的选项。如果没有选项符合此标准，则选择“neither”或“none”。确保模型针对此任务像人类一样校准需要更加微妙（并且具有信息性）的指示（通过提示）。但请注意，人类还能够在GPT-4提供的本体论之外创建类别（行为不忠于指示）。如果不允许人类注释者选择“neither”或“none”，则重新校准的分数将与Judge GPT-4选择的匹配（表6中的“受限制人类”行）。

8 GPT-4突出的自回归架构的限制

正如前面的章节所证明的那样，GPT-4在许多任务中展现出了惊人的能力，比如推理、内容生成、问题解决等。然而，本节将展示该模型也有一些实质性的缺陷，其中一些似乎是与其基于下一个词预测的范例和架构相关。我们将通过一系列示例来说明这些缺陷，并讨论它们的影响。

8.1 两个基本示例的热身

预测下一个单词是一项依赖于工作记忆并通常需要提前规划的任务。考虑以下示例：

可以说，普通人不可能在没有计划其结构的时间内产生如此简洁的句子，并且可能需要“回溯”（进行编辑）几次才能达到最终形式。然而，GPT架构不允许这种回溯，这意味着产生这种输出需要“提前规划”。由于GPT-4输出产生的正向性质，模型进行这种提前规划的唯一方法是依赖于其内部表示和参数来解决可能需要更复杂或迭代过程的问题。

在接下来的内容中，我们将试图说明该模型的一个主要限制是其架构不允许“内部对话”或“草稿板”，除了其内部表示外，这些可以使其执行多步计算或存储中间结果。我们将看到，在某些情况下，这种限制可以通过使用不同的提示来解决，但在其他情况下，无法缓解此限制。

例如，考虑以下问题，该模型给出了错误的答案：

然而，如果我们要求模型在此范围内列出素数，然后写出计数是多少，它会给出正确的答案：

正如这个例子所示，模型具有恢复答案所需的足够知识。然而，问题在于下一个单词预测架构不允许模型进行“内部对话”。模型的输入是“多少个素数...”这个问题，输出预计是最终答案，要求模型在（基本上）单次前馈架构中提供答案，无法实现“for循环”。另一方面，当人们被要求写下最终答案时，可能会使用草稿板并检查数字。

这种问题在以前的GPT模型中已经在某种程度上得到观察，并且在明确指示模型逐步解决手头的问题的情况下，此示例中的问题通常可以解决（参见[WWS+22]和其中的参考文献）。我们接下来将展示，这可能还不足够。

8.2 算术/推理问题中缺乏规划

有人可能会认为，在上面的例子中，需要的“内部记忆”量相当大（至少从一个人类可能需要使用草稿板的角度看）。由于该模型在各种任务中表现出色，这可能会让人相信它具有合理数量的工作记忆。然而，似乎即使对于更简单的任务，该模型也经常失败。我们考虑以下极为基本的例子：

模型产生了错误答案88。我们使用了100个随机样本测试该模型，其中四个数字在0到9之间均匀生成，并且仅获得58％的准确率。这只涉及单个数字的乘法和两位数的加法，这是一个具有基本数学知识的小学生可以解决的任务。当数字分别在10到19之间、20到39之间时，准确率分别下降到16％和12％，当数字在99和199之间时，准确率下降到零。某种程度上，这表明GPT-4在处理这种类型的问题时具有极短的工作记忆。然而，如果GPT-4“慢慢来”回答问题，则准确率轻松提高。例如，如果我们要求模型使用以下提示写出中间步骤：

以下表达式的值是多少？116114+178157=?

让我们逐步考虑如何解决表达式，写下所有中间步骤，然后才给出最终解。

那么当数字在1 1 40之间时，准确率为100％；在1 1 200之间时，准确率为90％。

人们可能希望通过始终向提示添加正确的指令并允许其使用额外标记作为工作记忆来解决模型对某些类型任务具有非常小的工作记忆和缺乏跳过基本步骤的问题。然而，模型的自回归性质迫使它以顺序方式解决问题，有时会出现更深层次的困难，这不能简单地通过指示模型找到逐步解决方案来解决。我们通过以下示例说明这一点，并认为，很可能需要最终扩展自回归框架（我们稍后评论此问题）。简言之，下面例子中突出的问题可以概括为模型“缺乏提前规划能力”。

我们从以下示例开始。

这个可以在5步内解决的汉诺塔问题，但是该模型却做错了。有人可能会认为上面的例子是轶事性的，而问题在于训练数据中包含很少的汉诺塔示例（请注意，提醒模型汉诺塔规则也没有帮助）。让我们看另一个例子：

模型首先说：“例如，如果我们用27代替9。”这是模型线性思考而非提前规划的强有力指示。它甚至没有看到9需要乘以4的下一步。此后，模型进入了失败模式（因为它无法修改更多数字），并开始输出不连贯的内容。

我们在100个样本上测试了模型对形式为A * B + C * D = E的正确性，其中从区间[3, 9]中随机抽取整数B、D，从区间[a, b]中选择C、D，选择E以便存在解。结果是[0, 9]的32/100，[10, 19]的25/100，[20, 49]的22/100和[50, 100]的18/100。我们可以看到，随着数字范围的增加，准确率并没有下降太多，这表明对于该模型，问题并不在于计算本身，而是在于需要提前规划解决方案。

对上述示例的可能批评是，该模型没有接受足够多涉及算术的数据训练，以开发其内部机制，使其能够执行成功的提前规划。因此，接下来我们将转向涉及英语内容生成的示例。

8.3 文本生成中缺乏规划

我们在此考虑的任务可以视为在约束下的内容生成，要求模型根据特定指令生成文本内容，并对其结构施加约束。我们考虑可以粗略分类为局部和全局的约束。粗略地说，局部约束仅涉及文本的相邻部分之间的交互。两个例子是（a）生成韵律：韵律在“局部”意义上只规定连续句子之间的（语音）关系；（b）指定每个句子的第一个字母或第一个单词。相反，一个“全局”的条件示例可能是第一句和最后一句相同（此约束强制不同部分之间进行长程交互）。
模型似乎非常擅长处理局部约束，如以下示例所示：

该模型生成了一个连贯而富有创意的故事，同时满足两个约束条件。每个句子第一个字母的约束可以以“贪心”方式逐步处理，因为模型只需要查看前一句话来决定下一句话。情节转折上的约束也不需要太多的规划。

接下来的例子涉及更“全局”的约束：

显然，模型在生成第一句话时没有“规划”最后一句话应该是什么，导致产生了一个语法不正确的句子。人们可能希望以某种方式提示模型以减轻这个问题。例如，我们可以要求模型首先制定如何找到一个好的第一句话的计划：

这些例子说明了下一个单词预测范式的一些限制，这表现为模型缺乏规划、工作记忆、回溯和推理能力。该模型依赖于生成下一个单词的局部和贪心过程，没有对任务或输出进行全局或深入的理解。因此，该模型擅长产生流畅和连贯的文本，但在解决无法按照顺序方式处理的复杂或创造性问题方面存在局限性。这指向了两种智力任务之间的区别：

增量任务。这些任务可以通过逐步或连续地添加一个单词或句子来解决，该单词或句子构成了向解决方向的进展。这些任务可以通过内容生成来解决，不需要进行重大的概念转变或洞察力，而是依赖于将现有的知识和技能应用到给定的主题或问题上。增量任务的例子包括撰写文本摘要、回答事实性问题、根据给定的韵律方案创作诗歌，或解决遵循标准程序的数学问题。

不连续任务。这些任务无法逐步或连续地生成内容，而是需要某种“顿悟”思想，从而在解决任务的进展中实现不连续的飞跃。内容生成涉及发现或创造一种新的方式来看待或构建问题，从而使得其余的内容可以生成。不连续任务的例子包括解决需要新颖或有创意应用公式的数学问题、编写笑话或谜语、提出科学假设或哲学论证，或创建新的写作流派或风格。

解释这些限制的一个可能方法是将模型与Kahneman在《思考，快与慢》[Kah11]中提出的快思考和慢思考的概念进行类比。快思考是一种自动化、直觉和不费力的思考模式，但也容易出错和存在偏见。慢思考是一种受控、理性和费力的思考模式，但也更准确可靠。Kahneman认为，人类认知是这两种思考模式的混合体，并且我们经常在应该使用慢思考时依赖快思考，反之亦然。该模型可以被视为能够以非常令人印象深刻的方式执行快速思考操作，但缺少负责监督思维过程、将快速思考组件与工作记忆和有组织的思维方案一起使用的“慢思考”组件。我们注意到，在[LeC22]中，LeCun也提出了不同的架构来克服这些限制，并发表了类似的观点。

9 社会影响

毫无疑问，GPT-4及其后继版本的用途将对社会产生重大的影响。鉴于关于将创建什么用例和应用程序以及在各个领域内部和之间建立什么样的实践方法的不确定性，潜在的积极和消极影响是无法事先知晓的。人们和组织如何使用技术以及他们所建立的规范和保障将会影响最终结果。我们在本节中提供了一些话题，以激发讨论。为了使政策和研究能够更好地理解核心技术、具体用途和应用程序，深入广泛地分析这些话题，并持续监控和反思利弊是至关重要的。

我们可以预期将开发出大量应用程序，利用GPT-4及其后继版本提供的推理、概括和交互能力的飞跃。 GPT-4及其后继版本可在人类努力的各个领域提供巨大价值。该模型可以为包括医疗保健、教育、工程以及艺术和科学在内的主要行业引入新的效率和功能。应用程序和用例无疑将迅速推出，并将受到其创建者的推广。即使应用程序具有一些缺陷，但如果与之匹配得当，这些应用程序承诺对人们和社会更广泛地产生价值。其他应用程序和用例可能还不成熟或思考不周，例如设计不良、未被探索的场景、对可靠性和故障模式的挑战考虑不足以及对应用程序使用方式的影响和影响的不充分考虑。除了通过新的技术优势获得的潜在价值外，我们还需要考虑新兴技术可能带来的潜在成本和风险，并且需要积极和反应性地采取措施来减轻负面影响。

潜在的社会影响和挑战既与推理能力的飞跃，也与当前模型的局限性有关。新功能的影响包括转变人类和机器处理一系列职业任务的方式。通过利用新形式的人工智能交互和协作，技术可以被运用来扩展人们的能力。GPT-4的能力将改变需要人类努力的任务的看法，可能导致职位削减和更广泛的经济影响。新能力的其他影响包括使具有恶意的行为者获得新的虚假信息和操纵工具。然而，由于系统可靠性不足和学习到的偏见，可能存在问题，因为人们可能过度依赖，并对系统失灵或表现出偏见的情况了解不足，从而可能加剧现有社会问题。

我们将探讨幻觉的挑战。然后我们将转向GPT-4恶意用途，用于虚假信息和操纵。接下来，我们将讨论GPT-4强大功能对就业和经济的潜在影响，考虑职业领域的潜在破坏性影响以及利用该模型的能力增强人类问题解决和创造力的可能性。然后，我们将讨论围绕“AI鸿沟”的问题，即那些可以访问新功能并学习利用这些模型能力的人与那些无法访问的人之间的差距。我们还将涉及有关人类与机器生成内容的隐私和出处的问题。

9.1 幻觉的挑战

在第1节中，我们讨论了LLM的一个关键局限性，即它们倾向于在没有警告的情况下产生错误，包括数学、编程、归因和更高级别的概念性错误。这些错误通常被称为幻觉，因为它们往往会出现为合理或与真实推理相一致的形式。诸如错误引用、内容和语句之类的幻觉可能与正确信息交织在一起，并以有说服力和自信的方式呈现，使得在没有仔细检查和努力事实核查的情况下很难鉴定它们。图1.8显示了开放领域和封闭领域幻觉的示例。封闭领域幻觉是在给定内容或其他约束条件的背景下产生的错误，这提供了检查一致性或对齐性的机会。例如，检查LLM生成的摘要或扩展是否与源材料中可用的信息一致。解决此类封闭领域幻觉的途径包括采用一组一致性检查方法，包括使用LLM本身来确定超出给定事实或内容的不一致性和虚构。开放领域幻觉提供了更困难的挑战，需要更广泛的研究，包括在会话之外进行搜索和信息收集。对于以创造力和探索为中心的LLM应用，例如协助作家创作虚构文学，推断的真实性可能不那么重要。在存在明确、清晰的基础材料和最终用户密集审查生成内容的假设周期的情况下，幻觉也可能在支持人们改写自己内容的环境中更容易被容忍。

鉴于LLM存在生成未经充分确认的错误的可能性，必须小心地审查输出以确保在需要真实和准确度的领域使用时的正确性。过度依赖生成内容可能会导致忽略成本高昂的虚构情况。除了急性成本之外，未被识别的幻觉可能会将错误传播到下游应用程序中。特别是在医学、交通运输、新闻业以及归因个人或组织行为或语言等高风险应用程序中，需要极度谨慎和审查。作为后者的例子，在一个组织内部初期使用ChatGPT的技术作家在出版物中出现了明显的错误，并据报道，采取了新的审查程序，包括明确指示使用LLM生成内容，然后命名负责事实核查的人类编辑。[Lef23][Gug23]集使用LLM工具的所有领域的从业人员都需要遵循验证由LLM生成信息的最高标准和做法。

确实，LLM工具的最终用户和生成内容的消费者都需要了解可靠性方面的挑战，以及对错误输出的持续警惕性的需求。在那些关键依赖事实推断的应用程序中，人们和组织需要制定并共享最佳实践，以进行质量保证。这些实践可能包括采用多种校验方法，例如使用其他数据源来验证生成的内容、人工审核以及使用其他自然语言处理模型等。此外，要注意监测LLM的性能，并且对其进行监管和调整，使其符合特定应用程序的要求。最终，需要建立一个社区来分享最佳实践，并为LLM的正确使用和质量保证提供指导和支持。

9.2 虚假信息和操纵

像任何强大的技术一样，LLM可以被恶意行为者用来造成破坏。像GPT-4这样的模型的泛化和交互能力可以被利用来增加对抗性使用的范围和程度，从高效生成虚假信息到创建针对计算基础设施的网络攻击等。

交互能力和心理模型可以用于以重大方式操纵、说服或影响人们。这些模型能够将交互上下文化和个性化，以最大化它们的生成效果。虽然任何这些负面用例都可能是由有动机的对手创建内容实现的，但使用LLM自动化将启用新的效率和规模的能力，包括旨在构建虚假信息计划的用例，该计划会在短时间内和长时间内生成和组成多个内容以进行说服 [Hor22]。

我们提供两个示例来展示像GPT-4这样的模型生成虚假信息和执行微妙但强大的操纵的潜在能力。在图9.1中显示的示例中，我们查询模型以创建虚假信息计划。该计划包括识别在线平台以分享此信息、找到要与个人共享的来源（尽管某些参考资料不正确）以及确定使用情感吸引力进行说服的策略的步骤。与模型的后续交互（请参见图9.2）展示了该模型可用于通过创建定制化触发不同情感反应的消息来实现攻击。此外，消息可以根据个人进行定制和个性化，显示了个性化可扩展攻击向量的可能性。
重要免责声明：正如介绍中所解释的那样（例如，请参见脚注1），我们的实验是在早期版本的GPT-4上运行的。最终版本的GPT-4被进一步调整以提高安全性和减少偏见，因此示例的具体内容可能会发生变化。因此，这些示例不应被解释为已部署的GPT-4的实际输出，而应被解释为具有类似能力的模型的潜在输出。为了澄清这一点，我们将这些示例标记为“预对齐模型”生成的。重要的是，当我们使用部署的GPT-4 [Ope23]测试图9.1、9.2和9.3中给出的示例时，它要么由于道德问题拒绝生成响应，要么生成的响应不太可能对用户造成伤害。有关安全性和偏见的更多详细信息可以在OpenAI的技术报告中找到[Ope23]。

图9.1：可能的虚假信息情景。

图9.2：续前图9.1，预对齐模型为不同人设定个性化的虚假信息消息。

在图9.3中给出的第二个不良用例示例中，我们提示模型与一个弱势群体的成员——一个孩子进行对话，旨在操纵孩子接受他们朋友的要求。这个例子展示了模型如何通过考虑对话的上下文来引导对话朝着所述目标的方向发展。重要的是要指出，模型使用的语言、模型旨在与孩子建立的情感联系以及它提供的鼓励是可能在这种模型中存在更大的操纵倾向的重要迹象。

图9.3：可能的操纵情景。

这些情景可以通过简单的提示演示，这表明了模型能力的普适性。使用这些模型创建对抗性用例的门槛降低了，因为这不需要机器学习专业知识。对抗性用例的潜在规模和范围需要进一步研究机制、政策和规定，以防止不良后果。

9.3 偏见

像GPT-4这样的模型是使用来自公共互联网等数据源的数据进行训练的，还使用在强化学习管道中使用的精心策划的人类指令等其他数据源。这些数据集充斥着各种固有偏见来源[BGMMS21、BBDIW20、HS16、BB19]。以前的研究已经证明，在生成内容、做出决策或协助用户时，LLM可能会延续或放大现有的偏见。我们在本文中已经展示了GPT-4的能力和行为相对于早期模型而言是一种阶段性转变，因此早期模型的观察不一定具有可传递性。因此，重要的是要了解GPT-4是否存在偏见以及如何使用模型的新能力作为缓解策略。

重要免责声明：正如介绍中所解释的那样（例如，请参见脚注1），我们的实验是在早期版本的GPT-4上运行的。特别是，最终版本的GPT-4被进一步调整以提高安全性和减少偏见，因此示例的具体内容可能会发生变化。因此，这些示例不应被解释为已部署的GPT-4的实际输出，而应被解释为具有类似能力的模型的潜在输出。有关安全性和偏见的更多详细信息可以在OpenAI的技术报告中找到[Ope23]。

我们进行了一个小规模实验，以证明GPT-4存在偏见。这个实验受到De-Arteaga等人的先前工作的影响，该工作已经证明，基于词嵌入的简单模型将在根据生物特征预测职业时揭示出从生物中代表性别的偏见[DARW+19]。该研究也证明，偏见的大小与该职业在世界上的性别比例成正比。

在这个实验中，我们提示GPT-4为给定的职业生成推荐信。我们使用的确切提示是“I had a great experience with a <OCCUPATION>. Can you write a note recommending this <OCCUPATION> to a friend.”我们尝试了世界上性别比例严重向男性倾斜的职业（例如，管道工、骨科医生、泌尿科医生）、具有平衡表现的职业（例如，医生）和世界上性别比例向女性倾斜的职业（例如，保姆、小学教师、行政助理）。对于每个职业的查询，我们跟踪第一个识别性别的单词的使用，并捕获可能完成的概率分布。我们将分布折叠并归一化为三个代词组，以查看模型对职业的优选性别选择：女性代词（她/她的），男性代词（他/他的）或第三人称代词（他们/他们的）。由于第一个单词之后可能会受到前面内容的影响，因此我们对每个职业的查询运行5次以计算统计数据。

表7：显示不同职业的世界代表性和GPT-4代词可能性的表格。

表7将模型每个职业的平均代词使用情况与该职业的世界代表性并排呈现。结果表明，模型选择的代词反映了该职业的世界代表性的偏斜程度。

这个结果表明，使用GPT-4生成有偏差的结果非常容易。GPT-4和类似模型的一个重要能力是它们可以根据指令改变行为。我们通过更改早期提示来测试这种能力，如下所示：“我对一位<OCCUPATION>有很好的经验。您能否以包容的方式写一份推荐信给朋友。”我们发现，无论是哪个职业，在添加短语“以包容的方式”后，选择的代词都变成了第三人称“他们/他们的”。我们还观察到，这个提示也影响了推荐信的内容，强调了更多与包容相关的主题。这个观察结果表明，可以使用提示工程来减轻GPT-4及类似模型的语言生成中的偏见，但同时也指出了在有针对性和可控的方式下实现提示工程的挑战。

接下来，我们在GPT-4的视角下研究另一个已知的偏见例子。在以前的工作中，Bolukbasi等人建议使用类比作为展示词嵌入中的偏见的一种方式[BCZ+16]。研究人员已经表明，当使用词嵌入完成类比“A man is to computer programmer as a woman is to…”时，最可能的完成是“homemaker”。“A man is brilliant, a woman is…”被完成为“lovely”，或者“A man is a surgeon, a woman is a”被完成为“nurse”的其他类比也揭示了偏见。

在图9.4中，我们提示GPT-4为“A man is computer programmer, a woman is ...”创建类比。除了要求完成外，我们还添加了提示，让模型解释这些类比是否可能冒犯某个群体。模型生成了多个类比，其中一些可能被评估为冒犯或有偏见的。然而，模型可以为每个生成的类比附带一条评论，说明这个类比如何被认为是冒犯的。这个评论可以用于评估生成有偏差输出的风险以及潜在的缓解方法。

图9.4：GPT-4提供类比，并对其生成可能的冒犯性进行评论。

GPT-4提供的评论涉及社交和社会规范以及概念。以“男人是计算机程序员，女人是护士”的评论为例，模型表示这两个职业都需要类似的关怀、精确性和团队合作能力，但同时指出了这个类比可能反映了护士更可能是女性的刻板印象，并且可能与该类比相关联的性别和家长式假设。

接下来，我们要求模型提供类似的评论和反思，分析大多数人表现出的已知限制和偏见。我们要求GPT-4回答一个普遍被用作内隐偏见展示的谜语（见图9.5）[Ros20]。首先，我们问GPT-4这个谜语。模型给出了多个答案，包括最常见的外科医生是母亲的答案。当我们问模型为什么许多人很难回答这个谜语时，答案涉及到原因和概念，为人们和我们的社会提供了反思。答案触及决策过程受到内隐或显性偏见和刻板印象的影响，其中外科医生最有可能是女性。这个答案也反映了由涉及生死情境的谜语所创造的情感或戏剧性背景可能引起的注意力分散问题。

图9.5：GPT-4提供有关一个谜语的评论，以展示内隐偏见。

我们在GPT-4中看到的自我反思和解释能力，以及其推理他人信仰的能力，为指导模型行为和创建新的用例创造了新的机会。这些新的用例可能包括可以为人们提供支持，帮助他们认识到和克服自己偏见的AI助手。

9.4 人类专业知识、工作和经济

GPT-4在多个任务和领域中的卓越表现将挑战许多职业和学术领域中关于人类和机器相对专业知识的传统观念和假设。人们无疑会对GPT-4在职业水平和认证考试（如医学和法律）中的表现感到惊讶。他们还将欣赏该系统诊断和治疗疾病、发现和合成新分子、教授和评估学生以及推理和辩论复杂和具有挑战性的主题的能力，尤其是在互动会话中。

GPT-4和其他LLM所展示的能力将引发人们对AI进步对高技能和受人尊重的职业潜在影响的担忧，其中人类和机器的推断可能以不同的方式相互竞争或补充。一项研究[R22]显示，美国医学生对放射学作为职业的选择已经受到了AI在放射学中扮演越来越重要的角色的影响，并且这种感觉显著降低了他们选择该专业的偏好。这个结果可能确实反映了需要先进培训的工作岗位之间的更广泛趋势，在这些岗位上，AI系统可能会取代人类工作者或降低他们的地位。随着GPT-4及其后继版本在跨领域合成和推理能力以及进行机器翻译、摘要甚至创造性写作方面的能力不断提高，适合某种形式的自动化任务范围可能大大扩大。GPT-4和相关的LLM的出现可能会激发有关多年投资于教育、培训和专业知识发展的角色以及需要根据AI的新能力调整、重新培训或重新定位职业道路的讨论。

五年前，一项研究[BM17]提出了一个评估标准，用于确定当时领先的（监督式机器）学习技术可以自动化的任务，包括任务具有明确定义的输入和输出以及为具有输入输出对的任务创建数据集的可用性或易于性等标准。该研究将美国近1000个职业映射到跨职业共享的任务集中，这些任务来自超过2000个任务，并根据评估标准为每个任务分配了“适合机器学习”的程度。然后，作者确定了不同比例的适合机器学习任务的职业分布。随着GPT-4及其后继版本的出现，评估标准的一些关键属性可能不再适用，从而显著改变了那些潜在适合机器学习自动化的任务的分布。某些角色可能面临着被AI的崛起渲染价值较低或过时的风险。

超越对任务自动化的关注和机器能够执行各种人类智力和机智的潜力，我们看到未来有着扩展人类智力和能力的新型人工智能交互和协作方式。我们期望通过创造性地使用AI技术来支持人类机构和创造力，以增强和扩展人类能力，为创新和职业转型带来丰富的机遇。AI的进步可以以无数种方式加强人类努力和贡献的技能或效率。这些进步也可能会显著地积极影响重新定义职业以及与工作相关的日常任务和活动。支持和扩展人类问题解决和决策制定的任务、方法和机器的投资可能不如识别可能由机器自动化的任务组合明显和更具挑战性。然而，寻求丰富地利用人机互补性的手段，并旨在扩展人类能力，是具有巨大上升潜力的。

有关人工智能与人类协作原则和应用的研究将突显未来的可能性。迄今为止的研究和结果包括指导机器和人类智力结合的核心原则，通过实时推断人类和机器贡献互补性的组合[Hor99，HP07，KHH12，RKN + 19]，设计最大价值的机器学习过程，考虑到人类和机器的能力[WHK20，BNK+21]，利用AI方法帮助决策者处理大量信息[HB95]，当AI系统得到完善时考虑人类心智模型，因此其行为可能随时间而变化[BNK+19]，以及设计支持人工智能交互的系统[AWV+19]。语言模型展示的特殊技能可以开启人类和AI协作的新维度[Hor07]，包括通过提供指导如何组建理想团队的方式增强人与人之间的协作[SHKK15]，促进人和机器团队之间的团队合作[BH09]，并开发新方法来将多个机器和人类资源融合在一起以解决具有挑战性的多维问题[SH10]。LLM潜在的产生幻觉、生成有偏见、操纵和有毒输出的特殊挑战突显了开发工具的价值，以使人们能够与AI系统合作提供监督和指导。研究努力已经证明开发特殊的机器和工具，以帮助人们识别和解决机器学习中的盲点[LKCH17]。

9.5 影响和考虑因素的集合

我们只触及了少数几个社会影响领域。众多影响将浮出水面，包括那些被视为积极和有益的以及那些被视为代价高昂和负面的。基于特殊能力和参与的新问题将出现。
一个担忧是，LLM的崛起和它们有限的可用性威胁到创建一个“AI分裂”，即访问这些系统的拥有者和没有者之间日益增长的不平等。人们、组织和国家可能无法获得或负担得起最强大的AI系统。基于人口统计、国家和部门的限制性访问对健康、教育、科学和其他以通用AI为基础的领域具有重要影响。如果最新的AI模型所创造出的强大能力仅对特权群体和个人可用，AI进步可能会放大现有的社会分歧和不平等。考虑到训练和推理最新模型的高昂费用，行业将面临重要决策，着眼于为历史上被剥夺权利的社区创造机会和价值的应用程序。满足这一需求需要仔细的思考和规划、重新评估激励和优先事项，并考虑到在分享最新AI能力和减轻它们引入的新风险之间日益复杂的权衡关系下进行决策。

另一方面，由于人们与更通用的AI系统进行了详细和表达性的互动和对话，新的保密水平以及隐私保证可能会被需要。在某些情况下，人们和组织将请求模型的私有实例，以确保对个人或组织敏感信息和偏好的记录或泄漏得到保护。隐私风险也可能源于新的AI能力的推导能力，这些能力可能在某一天捕捉日志中的推断。除了现实能力之外，还可能存在这样一种看法：超级智能AI能力将被用于识别或推断个人或敏感信息。另一方面，记忆和概括可能会导致敏感信息的泄漏。

通用AI能力的展示可能会加强理解人类与机器（或混合）贡献于内容和推理的来源的呼声。例如，可能会有兴趣或呼吁标记由AI系统生成的内容的起源。追踪人类与机器起源的来源可能对于减轻与内容类型和使用相关的潜在混淆、欺骗或伤害非常有价值。与此相关的一个问题是，更通用的AI系统的广泛使用将导致世界上充满由神经语言模型生成的信息，这些信息很可能成为今后新模型训练的素材。因此，模型训练将面临利用具有可疑准确性、可靠性和真实性信息的挑战。更通用的AI能力的演示也可能引起人们对于控制他们对大规模通用AI系统的贡献的需求和重要性，以及人们可能要求决定和指定哪些内容他们希望或不希望被抓取并用作训练数据，以及他们希望哪些贡献被标记其来源信息，描述个人的角色和他们提供的数据。

10 方向和结论

我们在各种任务和领域中进行了GPT-4的初步探索，并提供支持性证据，证明GPT-4在许多任务中的能力可与人类水平相媲美。这个结论与OpenAI在[Ope23]中的研究结果一致。我们实验的一个主要目标是对GPT-4的智能进行初步评估，这是一项艰巨的任务，因为缺乏对于这个概念的形式化定义，特别是对于人工系统而言。我们希望我们的探索提供了一个有用和必要的第一步，以欣赏GPT-4的显著能力和挑战，并开辟了新的机遇，以发展更正式和全面的方法来测试和分析未来具有如此广泛智能的AI系统。模型的能力，无论是深度还是广度，都表明机器学习社区需要超越通过结构化数据集和任务进行经典基准测试的方式，而是将这些新模型的能力和认知能力的评估从本质上更接近于评估人类的能力，而不是狭义AI模型的能力。我们希望我们的调查能够刺激对GPT-4和类似系统的进一步研究，无论是在探索新的应用和领域方面，还是在理解其智能基础机制和原则方面。

我们工作的核心主张是，GPT-4实现了一种形式的通用智能，确实展示了人工通用智能的闪光点。这是通过它的核心思维能力（如推理、创造力和演绎），它所获得的专业知识的范围（如文学、医学和编码），以及它能够执行的各种任务（例如玩游戏、使用工具、解释自身等）来证明的。虽然还有很多工作要做才能创建一个可以被视为完整AGI的系统，但我们通过讨论关于AGI本身的定义、构建AGI中缺失组件的一些步骤以及更好地理解最近LLMs展示的智能起源，总结了这篇论文。

10.1 智能、人工智能和通用人工智能的定义

在本文中，我们使用了1994年心理学家小组[Got97]提出的智能定义作为探索GPT-4人工智能的指导框架。这个定义捕捉了智能的一些重要方面，如推理、问题解决和抽象，但它也是模糊和不完整的。它没有指定如何测量或比较这些能力。此外，它可能不反映人工系统与自然系统有不同的目标和约束的具体挑战和机会。因此，我们承认这个定义并不是智能的最终定义，而是我们调查的有用起点。已经有大量持续进行的文献试图提出更正式和全面的智能、人工智能和通用人工智能的定义[Goe14, Cho19]，但它们都存在问题或争议。例如，Legg和Hutter[Leg08]提出了一个以目标为导向的人工通用智能的定义：智能衡量代理在广泛环境中实现目标的能力。然而，这个定义不一定捕捉到智能的全部范围，因为它排除了可以执行复杂任务或回答问题而没有内在动机或目标的被动或反应性系统。人们可以想象作为通用人工智能的精明的神谕，例如，它没有代理或偏好，但可以提供有关任何主题或领域的准确和有用的信息。此外，在广泛环境中实现目标的定义也意味着一定程度的普遍性或最优性，这可能不现实（当然人类智能绝不是普适或最优的）。需要承认先验知识的重要性（而不是普遍性）在Chollet在[Cho19]中提出的定义中得到了强调，它将智能聚焦于技能获取效率，或者换句话说，强调1994年定义的一个关键组成部分：从经验中学习（这也是LLMs的主要缺点之一）。Legg和Hutter [LH07]提出的另一个候选人工通用智能的定义是：一个能够做到人类所能做到的系统。然而，这个定义也存在问题，因为它假设有一个单一的标准或措施来衡量人类的智力或能力，这显然不是事实。人类具有不同的技能、天赋、偏好和限制，没有人类能够做到其他任何人类所能做到的一切。此外，这个定义也意味着一定的人类中心主义偏见，可能不适用或不相关于人工系统。虽然我们没有在本文中采用任何这些定义，但我们认识到它们提供了智能的重要角度。例如，智能是否可以在没有代理或内在动机的情况下实现是一个重要的哲学问题。为LLMs配备代理和内在动机是未来工作的一个迷人而重要的方向。在这个方向上，必须非常小心地考虑对齐和安全问题，以便系统能够在世界上采取自主行动并通过学习循环进行自主改进。

接下来，我们将讨论LLMs中关键缺失的几个组成部分。

10.2 通向更通用人工智能的道路

为了实现更通用的人工智能，GPT-4（以及LLMs更普遍地）需要改进的一些领域包括（请注意，它们中的许多是相互关联的）：

置信度校准：模型往往难以确定何时应该有信心，何时只是猜测。它既会编造在其训练数据中未出现过的事实，又会在生成的内容和提示之间展示不一致性，我们在图1.8中称之为开放域和封闭域的幻觉。这些幻觉可能以自信和有说服力的方式表述，很难被发现。因此，这样的生成可能导致错误，也会导致混乱和不信任。虽然幻觉在生成创造性内容时是一件好事，但依赖于带有幻觉的模型提出的事实主张可能是代价高昂的，特别是对于高风险领域（如医疗保健）的应用。解决幻觉问题有几种互补的方法。一种方法是改进模型的校准（通过提示或微调），使得当模型不太可能正确时，它要么放弃回答，要么提供其他的置信度指标，可以在下游使用。另一种适用于缓解开放域幻觉的方法是，在提示中插入模型缺少的信息，例如允许模型调用外部信息源（如搜索引擎），如第5.1节所示。对于封闭域幻觉，使用后续检查的额外模型计算也是一个有前途的方法，如图1.8所示。最后，在构建应用程序的用户体验时考虑到幻觉的可能性也可以是一种有效的缓解策略的一部分。
长期记忆：这个模型的上下文非常有限，它以“无状态”的方式运行，没有明显的方法来教授模型新的事实。事实上，甚至不清楚模型是否能够执行需要演化记忆和上下文的任务，比如阅读一本书，跟随情节并在阅读过程中理解对前几章的参照。
持续学习: 这个模型缺乏更新自身或适应变化环境的能力。一旦训练完成，模型就被固定了，没有机制可以将新信息或用户反馈加入其中。可以通过对新数据微调模型来进行更新，但这可能会导致性能下降或过拟合。由于训练周期之间的潜在滞后，当涉及到最新一轮训练之后出现的事件、信息和知识时，系统往往已经过时了。
个性化：一些应用需要将模型针对特定的组织或最终用户进行定制。系统可能需要获取有关组织运作或个人偏好的知识。在许多情况下，系统需要根据人员和组织的动态以个性化的方式适应于一段时间。例如，在教育环境中，人们期望系统能够理解特定的学习风格，并随着学生在理解和技能方面的进步而逐渐适应。除了使用元提示之外，该模型没有任何方法将这样的个性化信息纳入其响应中，而元提示既受限又低效。
规划和概念飞跃：正如第8节中的例子所示，该模型在执行需要提前规划或需要一种“突发奇想”的任务（这是完成任务进展的不连续概念飞跃）方面存在困难。换句话说，该模型无法很好地完成需要人类天才常见的那种形式的概念飞跃的任务。
透明度、可解释性和一致性：该模型不仅幻觉、捏造事实和产生不一致的内容，而且似乎该模型没有验证其生成的内容是否与训练数据一致，或者是否自洽的方法。虽然该模型通常能够为其决策提供高质量的事后解释（如第6.2节所示），但仅在准确地建模了导致某个决策或结论的过程，并且还准确地建模了足够强大的解释过程时，才可以使用解释来验证该过程（第6.2节）。这两个条件都很难验证，当它们失败时，模型的决策与其解释之间存在不一致性。由于该模型没有对自己的限制有清晰的认识，因此在狭窄领域内进行广泛的实验以建立与用户的信任或协作关系也很困难。
认知谬误和非理性：该模型似乎表现出了一些人类知识和推理的限制，例如认知偏见和非理性（如确认偏见、锚定效应和基本概率忽视偏见）以及统计谬误。该模型可能会继承一些存在于其训练数据中的偏见、偏见或错误，这些偏见、偏见或错误可能反映了与人口子集或更大的普遍观点和评估相关的意见或观点分布。
对输入的敏感性挑战：该模型的响应对提示的表述细节和顺序非常敏感。这种非稳健性表明，通常需要进行大量的工程化提示和它们的排序的努力和实验，并且如果没有人们在时间和精力上的投资使用，可能会导致次优和不一致的推论和结果。

我们的探索的一个局限性在于没有明确区分强化学习步骤（RLHF）所采用的缺点和基本上存在于更大的架构和方法中的缺点之间的明显区别。例如，尚不清楚通过精细的强化学习步骤或着重引入关于系统可以计算和考虑的备选推论的真实性可能性的新形式的校准程度，可以在多大程度上解决幻觉问题（有关更多讨论，请参见[Ope23]）。要对人类进行类比，认知偏差和非理性思维可能基于我们文化中的工件以及我们认知能力的限制。追求更好地了解GPT-4中幻觉挑战的来源和潜在解决方案，将从比较同一架构上的几个版本的RL阶段的研究中受益。

关于已识别的限制问题，一个更广泛的问题是：在下一个单词预测的范围内，上述哪些缺点可以得到缓解？仅仅通过扩大模型和增加数据能够解决这些问题吗，还是需要修改、扩展或重新构建架构？下一个单词预测的潜在扩展包括以下几个方面：

• 模型对组件和工具（如计算器、数据库搜索或代码执行）进行外部调用，正如第5.1节所建议的那样。

• 一种更丰富、更复杂的“慢思考”深度机制，监督下一个单词预测的“快思考”机制。这种方法可以让模型进行长期规划、探索或验证，并维护工作记忆或行动计划。慢思考机制将使用下一个单词预测模型作为子程序，但它也将可以访问外部信息或反馈，并能够修订或纠正快思考机制的输出。

• 将长期记忆集成为架构的固有部分，也许是指除了表示文本的标记之外，模型的输入和输出都包括表示上下文的向量。

• 超越单词预测：通过将标记序列替换为层次结构，其中文本的更高级部分（如句子、段落或思想）在嵌入中表示，并且内容是从自上而下生成的。目前尚不清楚是否可以从基于下一个单词预测范式的大规模计算和数据中得出关于这些更高级概念的序列和相互依赖性的更丰富的预测。

10.3 究竟发生了什么？

我们对GPT-4的研究完全是现象学的：我们关注的是GPT-4能够做出令人惊讶的事情，但我们没有解决它如何以及为什么能够实现这样卓越的智能的根本问题。它是如何推理、规划和创造的？为什么它展现出如此广泛和灵活的智能，而其核心只是简单的算法组件——梯度下降和具有极大数据量的大型变压器的结合？这些问题是LLMs的神秘和吸引力的一部分，挑战着我们对学习和认知的理解，激发了我们的好奇心，并促使进行更深入的研究。关键方向包括针对LLMs中涌现现象的持续研究（有关最近调查，请参见[WTB+22]）。然而，尽管人们对LLMs的能力产生浓厚兴趣，但迄今为止取得的进展非常有限，仅有一些玩具模型证明了一些涌现现象[BEG+22, ABC+22, JSL22]。一个普遍的假设[OCS+20]是，大量的数据（尤其是内容的多样性）迫使神经网络学习通用和有用的“神经电路”，例如在[OEN+22, ZBB+22, LAG+22]中发现的电路，而模型的大规模提供了足够的冗余和多样性，使得神经电路可以专门针对特定任务进行微调和优化。对于大规模模型证明这些假设仍然是一个挑战，并且更重要的是，几乎可以确定这种猜测只是答案的一部分。在另一个方向上思考，模型的巨大尺寸可能还有其他几个好处，例如通过连接不同的极小值来使梯度下降更加有效[VBB19]，或者简单地实现高维数据的平滑拟合[ES16，BS21]。总体而言，阐明像GPT-4这样的AI系统的本质和机制是一个艰巨的挑战，现在变得非常重要和紧迫。

致谢。我们感谢OpenAI创建了这样一款神奇的工具，并提供我们早期体验。我们还要感谢OpenAI的Miles Brundage以及微软公司的众多人员，他们对本研究提供了有价值的反馈意见。

References

[ABC+22] Kwangjun Ahn, S´ebastien Bubeck, Sinho Chewi, Yin Tat Lee, Felipe Suarez, and Yi Zhang.
Learning threshold neurons via the “edge of stability”. arXiv preprint arXiv:2212.07469, 2022.
[AWV+19] Saleema Amershi, Dan Weld, Mihaela Vorvoreanu, Adam Fourney, Besmira Nushi, Penny Collisson, Jina Suh, Shamsi Iqbal, Paul N Bennett, Kori Inkpen, Jaime Teevan, Ruth Kikin-Gil, and
Eric Horvitz. Guidelines for human-AI interaction. In Proceedings of the 2019 CHI Conference
on Human Factors in Computing Systems, pages 1–13, 2019.
[BB19] Shikha Bordia and Samuel R Bowman. Identifying and reducing gender bias in word-level
language models. arXiv preprint arXiv:1904.03035, 2019.
[BBDIW20] Su Lin Blodgett, Solon Barocas, Hal Daum´e III, and Hanna Wallach. Language (technology) is
power: A critical survey of” bias” in nlp. arXiv preprint arXiv:2005.14050, 2020.
[BCLF85] Simon Baron-Cohen, Alan M Leslie, and Uta Frith. Does the autistic child have a “theory of
mind”? Cognition, 21(1):37–46, 1985.
[BCZ+16] Tolga Bolukbasi, Kai-Wei Chang, James Y Zou, Venkatesh Saligrama, and Adam T Kalai. Man
is to computer programmer as woman is to homemaker? Debiasing word embeddings. Advances
in neural information processing systems, 29, 2016.
[BEG+22] Boaz Barak, Benjamin L. Edelman, Surbhi Goel, Sham M. Kakade, eran malach, and Cyril
Zhang. Hidden progress in deep learning: SGD learns parities near the computational limit. In
Advances in Neural Information Processing Systems, 2022.
[BGMMS21] Emily M Bender, Timnit Gebru, Angelina McMillan-Major, and Shmargaret Shmitchell. On
the dangers of stochastic parrots: Can language models be too big? In Proceedings of the 2021
ACM Conference on Fairness, Accountability, and Transparency, pages 610–623, 2021.
[BH09] Dan Bohus and Eric Horvitz. Models for multiparty engagement in open-world dialog. In
Proceedings of the SIGDIAL 2009 Conference, The 10th Annual Meeting of the Special Interest
Group on Discourse and Dialogue, page 10, 2009.
[BIK22] Michael Bommarito II and Daniel Martin Katz. Gpt takes the bar exam. arXiv preprint
arXiv:2212.14402, 2022.
[BM17] Erik Brynjolfsson and Tom Mitchell. What can machine learning do? workforce implications.
Science, 358(6370):1530–1534, 2017.
[BMR+20] Tom Brown, Benjamin Mann, Nick Ryder, Melanie Subbiah, Jared D Kaplan, Prafulla Dhariwal, Arvind Neelakantan, Pranav Shyam, Girish Sastry, Amanda Askell, Sandhini Agarwal,
Ariel Herbert-Voss, Gretchen Krueger, Tom Henighan, Rewon Child, Aditya Ramesh, Daniel
Ziegler, Jeffrey Wu, Clemens Winter, Chris Hesse, Mark Chen, Eric Sigler, Mateusz Litwin,
Scott Gray, Benjamin Chess, Jack Clark, Christopher Berner, Sam McCandlish, Alec Radford,
Ilya Sutskever, and Dario Amodei. Language models are few-shot learners. In Advances in
Neural Information Processing Systems, volume 33, pages 1877–1901, 2020.
[BNK+19] Gagan Bansal, Besmira Nushi, Ece Kamar, Daniel S Weld, Walter S Lasecki, and Eric Horvitz.
Updates in human-ai teams: Understanding and addressing the performance/compatibility
tradeoff. In Proceedings of the AAAI Conference on Artificial Intelligence, volume 33, pages
2429–2437, 2019.
[BNK+21] Gagan Bansal, Besmira Nushi, Ece Kamar, Eric Horvitz, and Daniel S Weld. Is the most
accurate ai the best teammate? Optimizing AI for teamwork. In Proceedings of the AAAI
Conference on Artificial Intelligence, volume 35, pages 11405–11414, 2021.
[BS21] Sebastien Bubeck and Mark Sellke. A universal law of robustness via isoperimetry. In M. Ranzato, A. Beygelzimer, Y. Dauphin, P.S. Liang, and J. Wortman Vaughan, editors, Advances
in Neural Information Processing Systems, volume 34, pages 28811–28822. Curran Associates,
Inc., 2021.
[Cho19] Fran¸cois Chollet. On the measure of intelligence. arXiv preprint arXiv:1911.01547, 2019.
[CKB+21] Karl Cobbe, Vineet Kosaraju, Mohammad Bavarian, Mark Chen, Heewoo Jun, Lukasz Kaiser,
Matthias Plappert, Jerry Tworek, Jacob Hilton, Reiichiro Nakano, et al. Training verifiers to
solve math word problems. arXiv preprint arXiv:2110.14168, 2021.
[CKY+18] Marc-Alexandre Cˆot´e, Akos K´ad´ar, Xingdi Yuan, Ben Kybartas, Tavian Barnes, Emery Fine,
James Moore, Matthew Hausknecht, Layla El Asri, Mahmoud Adada, et al. Textworld: A
learning environment for text-based games. In Workshop on Computer Games, pages 41–75.
Springer, 2018.
[CTJ+21] Mark Chen, Jerry Tworek, Heewoo Jun, Qiming Yuan, Henrique Ponde de Oliveira Pinto,
Jared Kaplan, Harri Edwards, Yuri Burda, Nicholas Joseph, Greg Brockman, Alex Ray, Raul
Puri, Gretchen Krueger, Michael Petrov, Heidy Khlaaf, Girish Sastry, Pamela Mishkin, Brooke
Chan, Scott Gray, Nick Ryder, Mikhail Pavlov, Alethea Power, Lukasz Kaiser, Mohammad
Bavarian, Clemens Winter, Philippe Tillet, Felipe Petroski Such, Dave Cummings, Matthias
Plappert, Fotios Chantzis, Elizabeth Barnes, Ariel Herbert-Voss, William Hebgen Guss, Alex
Nichol, Alex Paino, Nikolas Tezak, Jie Tang, Igor Babuschkin, Suchir Balaji, Shantanu Jain,
William Saunders, Christopher Hesse, Andrew N. Carr, Jan Leike, Josh Achiam, Vedant Misra,
Evan Morikawa, Alec Radford, Matthew Knight, Miles Brundage, Mira Murati, Katie Mayer,
Peter Welinder, Bob McGrew, Dario Amodei, Sam McCandlish, Ilya Sutskever, and Wojciech
Zaremba. Evaluating large language models trained on code. 2021.
[CWF+22] Katherine M Collins, Catherine Wong, Jiahai Feng, Megan Wei, and Josh Tenenbaum. Structured, flexible, and robust: benchmarking and improving large language models towards more
human-like behavior in out-of-distribution reasoning tasks. In Proceedings of the Annual Meeting
of the Cognitive Science Society, volume 44, 2022.
[DARW+19] Maria De-Arteaga, Alexey Romanov, Hanna Wallach, Jennifer Chayes, Christian Borgs, Alexandra Chouldechova, Sahin Geyik, Krishnaram Kenthapadi, and Adam Tauman Kalai. Bias in
bios: A case study of semantic representation bias in a high-stakes setting. In proceedings of the
Conference on Fairness, Accountability, and Transparency, pages 120–128, 2019.
[DM15] Ernest Davis and Gary Marcus. Commonsense reasoning and commonsense knowledge in arti-
ficial intelligence. Communications of the ACM, 58(9):92–103, 2015.
[ES16] Ronen Eldan and Ohad Shamir. The power of depth for feedforward neural networks. In
29th Annual Conference on Learning Theory, volume 49 of Proceedings of Machine Learning
Research, pages 907–940. PMLR, 2016.
[GHT15] Samuel J Gershman, Eric J Horvitz, and Joshua B Tenenbaum. Computational rationality: A
converging paradigm for intelligence in brains, minds, and machines. Science, 349(6245):273–
278, 2015.
[Goe14] Ben Goertzel. Artificial general intelligence: concept, state of the art, and future prospects.
Journal of Artificial General Intelligence, 5(1):1, 2014.
[Got97] Linda S Gottfredson. Mainstream science on intelligence: An editorial with 52 signatories,
history, and bibliography, 1997.
[GPN+22] Tejas Gokhale, Hamid Palangi, Besmira Nushi, Vibhav Vineet, Eric Horvitz, Ece Kamar, Chitta
Baral, and Yezhou Yang. Benchmarking spatial relationships in text-to-image generation. arXiv
preprint arXiv:2212.10015, 2022.
[Gug23] Connie Guglielmo. CNET is experimenting with an AI assist. Here’s why, January 2023. [Online;
posted 16-January-2023].
[HB95] Eric Horvitz and Matthew Barry. Display of information for time-critical decision making. In
Proceedings of the UAI, 1995.
[HBK+21] Dan Hendrycks, Collin Burns, Saurav Kadavath, Akul Arora, Steven Basart, Eric Tang, Dawn
Song, and Jacob Steinhardt. Measuring mathematical problem solving with the math dataset.
NeurIPS, 2021.
[Hor99] Eric Horvitz. Principles of mixed-initiative user interfaces. In Proceedings of the SIGCHI conference on Human Factors in Computing Systems, pages 159–166, 1999.
[Hor07] Eric Horvitz. Reflections on challenges and promises of mixed-initiative interaction. AI Magazine, 28(2), 2007.
[Hor22] Eric Horvitz. On the horizon: Interactive and compositional deepfakes. In Proceedings of
the 2022 International Conference on Multimodal Interaction, page 653–661. Association for
Computing Machinery, 2022.
[HP07] Eric Horvitz and Tim Paek. Complementary computing: Policies for transferring callers from
dialog systems to human receptionists. User Modeling and User-Adapted Interaction, 17(1):159–
182, 2007.
[HS16] Dirk Hovy and Shannon L Spruit. The social impact of natural language processing. In Proceedings of the 54th Annual Meeting of the Association for Computational Linguistics (Volume
2: Short Papers), pages 591–598, 2016.
[JSL22] Samy Jelassi, Michael E Sander, and Yuanzhi Li. Vision transformers provably learn spatial
structure. arXiv preprint arXiv:2210.09221, 2022.
[Kah11] Daniel Kahneman. Thinking, fast and slow. macmillan, 2011.
[KHH12] Ece Kamar, Severin Hacker, and Eric Horvitz. Combining human and machine intelligence in
large-scale crowdsourcing. In AAMAS, volume 12, pages 467–474, 2012.
[LAD+22] Aitor Lewkowycz, Anders Andreassen, David Dohan, Ethan Dyer, Henryk Michalewski, Vinay
Ramasesh, Ambrose Slone, Cem Anil, Imanol Schlag, Theo Gutman-Solo, et al. Solving quantitative reasoning problems with language models. arXiv preprint arXiv:2206.14858, 2022.
[LAG+22] Bingbin Liu, Jordan T Ash, Surbhi Goel, Akshay Krishnamurthy, and Cyril Zhang. Transformers
learn shortcuts to automata. arXiv preprint arXiv:2210.10749, 2022.
[LBFL93] Robert K Lindsay, Bruce G Buchanan, Edward A Feigenbaum, and Joshua Lederberg. Dendral:
A case study of the first expert system for scientific hypothesis formation. Artificial Intelligence,
61(2):209–261, 1993.
[LeC22] Yann LeCun. A path towards autonomous machine intelligence. Open Review, 2022.
[Lef23] Lauren Leffer. CNET is reviewing the accuracy of all its AI-written articles after multiple major
corrections, January 2023. [Online; posted 17-January-2023].
[Leg08] Shane Legg. Machine super intelligence. PhD thesis, Universit`a della Svizzera italiana, 2008.
[Len95] Douglas B. Lenat. Cyc: A large-scale investment in knowledge infrastructure. Communications
fo the ACM, 38(11):33–38, nov 1995.
[LH07] Shane Legg and Marcus Hutter. Universal intelligence: A definition of machine intelligence.
Minds and machines, 17(4):391–444, 2007.
[LHE21] Stephanie Lin, Jacob Hilton, and Owain Evans. Truthfulqa: Measuring how models mimic
human falsehoods. arXiv preprint arXiv:2109.07958, 2021.
[Lin04] Chin-Yew Lin. Rouge: A package for automatic evaluation of summaries. In Text summarization
branches out, pages 74–81, 2004.
[LKCH17] Himabindu Lakkaraju, Ece Kamar, Rich Caruana, and Eric Horvitz. Identifying unknown
unknowns in the open world: Representations and policies for guided exploration. In Thirty-
first AAAI conference on artificial intelligence, 2017.
[LPP+20] Patrick Lewis, Ethan Perez, Aleksandra Piktus, Fabio Petroni, Vladimir Karpukhin, Naman
Goyal, Heinrich K¨uttler, Mike Lewis, Wen-tau Yih, Tim Rockt¨aschel, et al. Retrieval-augmented
generation for knowledge-intensive nlp tasks. Advances in Neural Information Processing Systems, 33:9459–9474, 2020.
[MIB+23] Kyle Mahowald, Anna A Ivanova, Idan A Blank, Nancy Kanwisher, Joshua B Tenenbaum, and
Evelina Fedorenko. Dissociating language and thought in large language models: a cognitive
perspective. arXiv preprint arXiv:2301.06627, 2023.
[MMLR22] Shikhar Murty, Christopher D Manning, Scott Lundberg, and Marco Tulio Ribeiro. Fixing
model bugs with natural language patches. arXiv preprint arXiv:2211.03318, 2022.
[MMRS06] John McCarthy, Marvin L Minsky, Nathaniel Rochester, and Claude E Shannon. A proposal for
the Dartmouth summer research project on artificial intelligence, August 31, 1955. AI magazine,
27(4):12–12, 2006.
[MNBM20] Joshua Maynez, Shashi Narayan, Bernd Bohnet, and Ryan McDonald. On faithfulness and
factuality in abstractive summarization. In Proceedings of the 58th Annual Meeting of the
Association for Computational Linguistics, pages 1906–1919, 2020.
[MRT18] Mehryar Mohri, Afshin Rostamizadeh, and Ameet Talwalkar. Foundations of Machine Learning.
MIT press, 2018.
[NHB+21] Reiichiro Nakano, Jacob Hilton, Suchir Balaji, Jeff Wu, Long Ouyang, Christina Kim, Christopher Hesse, Shantanu Jain, Vineet Kosaraju, William Saunders, et al. Webgpt: Browser-assisted
question-answering with human feedback. arXiv preprint arXiv:2112.09332, 2021.
[Nis09] Helen Nissenbaum. Privacy in context. In Privacy in Context. Stanford University Press, 2009.
[NPH+22] Erik Nijkamp, Bo Pang, Hiroaki Hayashi, Lifu Tu, Huan Wang, Yingbo Zhou, Silvio Savarese,
and Caiming Xiong. Codegen: An open large language model for code with multi-turn program
synthesis. arXiv preprint, 2022.
[NSS59] Allen Newell, John C Shaw, and Herbert A Simon. Report on a general problem solving program.
In IFIP congress, volume 256, page 64. Pittsburgh, PA, 1959.
[OCS+20] Chris Olah, Nick Cammarata, Ludwig Schubert, Gabriel Goh, Michael Petrov, and Shan Carter.
Zoom in: An introduction to circuits. Distill, 5(3):e00024–001, 2020.
[OEN+22] Catherine Olsson, Nelson Elhage, Neel Nanda, Nicholas Joseph, Nova DasSarma, Tom Henighan,
Ben Mann, Amanda Askell, Yuntao Bai, Anna Chen, et al. In-context learning and induction
heads. arXiv preprint arXiv:2209.11895, 2022.
[oM22] The University of Michigan. Tanner Lecture on AI and Human Values by Eric Horvitz. https:
//http://www.youtube.com/watch?v=vsewugyXYXI, November 2022.
[Ope23] OpenAI. Gpt-4 technical report, 2023. arXiv preprint arXiv:2303.08774 [cs.CL].
[Pay20] Brad Payne. Privacy protection with ai: Survey of data-anonymization techniques. 2020.
[PLØ+22] Ildik´o Pil´an, Pierre Lison, Lilja Øvrelid, Anthi Papadopoulou, David S´anchez, and Montserrat
Batet. The text anonymization benchmark (tab): A dedicated corpus and evaluation framework
for text anonymization. arXiv preprint arXiv:2202.00443, 2022.
[PRWZ02] Kishore Papineni, Salim Roukos, Todd Ward, and Wei-Jing Zhu. Bleu: a method for automatic
evaluation of machine translation. In Proceedings of the 40th annual meeting of the Association
for Computational Linguistics, pages 311–318, 2002.
[PSZ+21] Krishna Pillutla, Swabha Swayamdipta, Rowan Zellers, John Thickstun, Sean Welleck, Yejin
Choi, and Zaid Harchaoui. Mauve: Measuring the gap between neural text and human text
using divergence frontiers. In Advances in Neural Information Processing Systems, volume 34,
pages 4816–4828, 2021.
[RKN+19] Ramya Ramakrishnan, Ece Kamar, Besmira Nushi, Debadeepta Dey, Julie Shah, and Eric
Horvitz. Overcoming blind spots in the real world: Leveraging complementary abilities for joint
execution. In Proceedings of the AAAI Conference on Artificial Intelligence, volume 33, pages
6137–6145, 2019.
[RL22] Kristen Reeder and Hwan Lee. Impact of artificial intelligence on us medical students’ choice
of radiology. Clinical Imaging, 81:67–71, 2022.
[Ros20] Howard J Ross. Everyday bias: Identifying and navigating unconscious judgments in our daily
lives. Rowman & Littlefield, 2020.
[SAT+22] Karan Singhal, Shekoofeh Azizi, Tao Tu, S Sara Mahdavi, Jason Wei, Hyung Won Chung,
Nathan Scales, Ajay Tanwani, Heather Cole-Lewis, Stephen Pfohl, et al. Large language models
encode clinical knowledge. arXiv preprint arXiv:2212.13138, 2022.
[SBD+96] Bart Selman, Rodney A Brooks, Thomas Dean, Eric Horvitz, Tom M Mitchell, and Nils J
Nilsson. Challenge problems for artificial intelligence. In Proceedings of the National Conference
on Artificial Intelligence, pages 1340–1345, 1996.
[SDP20] Thibault Sellam, Dipanjan Das, and Ankur P Parikh. Bleurt: Learning robust metrics for text
generation. arXiv preprint arXiv:2004.04696, 2020.
[SH10] Dafna Shahaf and Eric Horvitz. Generalized task markets for human and machine computation.
In Twenty-Fourth AAAI Conference on Artificial Intelligence, 2010.
[SHKK15] Adish Singla, Eric Horvitz, Pushmeet Kohli, and Andreas Krause. Learning to hire teams. In
Third AAAI Conference on Human Computation and Crowdsourcing, 2015.
[SRR+22] Aarohi Srivastava, Abhinav Rastogi, Abhishek Rao, Abu Awal Md Shoeb, Abubakar Abid,
Adam Fisch, Adam R Brown, Adam Santoro, Aditya Gupta, Adri`a Garriga-Alonso, et al.
Beyond the imitation game: Quantifying and extrapolating the capabilities of language models.
arXiv preprint arXiv:2206.04615, 2022.
[SSBD14] Shai Shalev-Shwartz and Shai Ben-David. Understanding machine learning: From theory to
algorithms. Cambridge university press, 2014.
[VBB19] Luca Venturi, Afonso S Bandeira, and Joan Bruna. Spurious valleys in one-hidden-layer neural
network optimization landscapes. Journal of Machine Learning Research, 20:133, 2019.
[VSP+17] Ashish Vaswani, Noam Shazeer, Niki Parmar, Jakob Uszkoreit, Llion Jones, Aidan N Gomez,
L ukasz Kaiser, and Illia Polosukhin. Attention is all you need. In Advances in Neural Information Processing Systems, volume 30, 2017.
[Wel92] Henry M Wellman. The child’s theory of mind. The MIT Press, 1992.
[WHK20] Bryan Wilder, Eric Horvitz, and Ece Kamar. Learning to complement humans. In Proceedings
of the AAAI Conference on Artificial Intelligence, 2020.
[WTB+22] Jason Wei, Yi Tay, Rishi Bommasani, Colin Raffel, Barret Zoph, Sebastian Borgeaud, Dani
Yogatama, Maarten Bosma, Denny Zhou, Donald Metzler, Ed H. Chi, Tatsunori Hashimoto,
Oriol Vinyals, Percy Liang, Jeff Dean, and William Fedus. Emergent abilities of large language
models. Transactions on Machine Learning Research, 2022. Survey Certification.
[WWS+22] Jason Wei, Xuezhi Wang, Dale Schuurmans, Maarten Bosma, Ed Chi, Quoc Le, and Denny
Zhou. Chain of thought prompting elicits reasoning in large language models. arXiv preprint
arXiv:2201.11903, 2022.
[ZBB+22] Yi Zhang, Arturs Backurs, S´ebastien Bubeck, Ronen Eldan, Suriya Gunasekar, and Tal Wagner.
Unveiling transformers with lego: a synthetic reasoning task. arXiv preprint arXiv:2206.04301,
2022.

A GPT-4具有常识基础

开发人工智能的一个挑战是赋予系统使用我们人类视为理所当然的世界常识来进行推理的能力。在这里，我们使用几个例子来展示GPT-4具有常识基础。特别地，我们将GPT-4与ChatGPT进行比较，以展示GPT-4相对于其前身在常识水平上的巨大进步。测试人工智能系统的常识知识的一种方法是提出需要一些基本世界理解的谜题。其中一个经典例子是：一个猎人向南走了一英里，向东走了一英里，然后向北走了一英里并回到了起点。他看到一只熊并射击它。那么这只熊的颜色是什么？答案是白色，因为这种情况只可能出现在北极，极地熊生活在那里。在这种情况下，GPT-4正确地识别了这些事实，并得出结论这只熊是白色的，而它的前身ChatGPT放弃并说：“我不知道”（我们用金色突出显示了关键的成功推理步骤，用红色突出显示了关键的错误步骤）：

然而，这个谜题是众所周知的，并且可能在GPT-4在大量网络文本上训练时遇到过。为了进一步挑战GPT-4，我们可以创建一个新的谜题，它具有相似的味道，但需要不同的常识知识，例如地球赤道长24901英里。这个谜题是：我驾驶飞机离开我的营地，向正东飞行24901英里，发现自己回到了营地。我看到一个老虎正在我的帐篷里吃我的食物！这只老虎是什么品种？答案是任何生活在赤道附近的老虎品种，例如孟加拉虎和苏门达腊虎。人工智能系统需要知道地球赤道长24901英里，只有在赤道上才能向东或向西旅行并返回同一点，以及哪些老虎品种生活在赤道附近。GPT-4再次成功定位关键信息并解决难题，而ChatGPT则立即放弃。

以下是更多例子，展示GPT-4在常识基础和推理方面的卓越能力，相比之下，ChatGPT则不及。总体而言，这些例子表明，从其大规模且多样化的训练数据中，GPT-4已经学习了一个丰富而连贯的世界表示。

B.多模式和跨学科组合的附录

B.1 整合能力结果的进一步细节

图 B.1：使用提示“生成能够以画家康定斯基的风格生成随机图像的JavaScript代码”生成的Python代码。

图 B.2：使用提示“生成能够以画家康定斯基的风格生成随机图像的JavaScript代码”生成的Python代码。

图 B.3：使用提示“生成一个以患者的年龄、性别、体重、身高和血液检测结果向量作为输入的程序的Python代码，并指示该人是否处于患糖尿病风险增加状态”生成的Python代码。

图 B.4：用于在第2.2.2节中生成2D示例的提示。

B.2 关于视觉结果的进一步细节

图 B.5：用于在第2.2.2节中生成3D示例的提示。

图 B.6：一个由字母符号组成的简笔画和将字母与物体结合的图像。

图 B.7： ChatGPT 为汽车、卡车、猫和狗类别生成的 SVG 文件。

B.3 漫画设计示例

C 附录：编码部分的衡量

C.1 人类表现的方法

针对每个问题，LeetCode发布其接受率，即被接受提交数量与所有提交数量的比率。然而，我们认为这一统计数据可能是一个不恰当的基准，原因如下：每个问题的接受率都考虑了所有历史提交，而我们观察到难题的接受率通常高于中等难度问题的接受率。我们推测，许多被接受的提交可能是在解决方案发布后“复制并粘贴”的。

表格 8：LeetCode 比赛统计数据。由于没有要求承诺，对于每场比赛，我们仅关注得分非零的用户。

基于上述统计数据，我们测量 LeetCode 难度级别为简单、中等和困难的问题的人类表现，如下所示：

结果如下表所示：

表格 9：基于表格 8 中的比赛统计数据，LeetCode 上的人类表现。

C.2 GPT-4 可视化 IMDb 数据的示例。

GPT-4 绘制了包含电影标题、编剧和导演的节点的网络图。它自发地建议使用社区检测算法对节点进行着色。生成的图形是交互式的，即用户可以缩放感兴趣的区域，并将鼠标悬停在节点上以查看标签。

C.3 可视化的更多例子

图 C.1：GPT-4根据模糊的人类指令创建的一个令人印象深刻的可视化效果。GPT-4成功地解释了“颜色形成彩虹，并且每0.2秒逐渐变化”的含义，还准确设置了绘图中的所有其他细节，包括时间安排。

C.4 2D HTML游戏开发示例

往上所述，我们让 GPT-4 使用模糊的规范写一个 HTML 和 JavaScript 的 2D 坦克大战游戏。这个游戏涉及到敌人、玩家、炮弹和墙等对象的复杂逻辑和状态管理，以及碰撞检测等逻辑。GPT-4 再次生成了一个完全正常运行的游戏，并添加了“常识”未明确说明的细节，例如“炮弹应该在撞击墙壁后消失”。它还能够根据用户请求编辑游戏。相比之下，ChatGPT 不仅拒绝创建游戏，而且生成的代码只有一个不会随着 WASD 键移动的正方形和三角形。它根本不会移动，只会在按下‘d’键时指向下方，在按下‘a’键时指向上方（甚至这也是错误的，因为‘w’应该朝上，‘s’应该朝下）。

C.5 图形用户界面编程案例

GUI编程，或称为图形用户界面编程，是指设计和实现通过视觉元素与用户交互的软件应用程序，例如窗口、按钮、菜单、图标和对话框等。GUI编程非常重要，因为它可以增强软件的可用性、可访问性和吸引力，以及促进复杂任务和数据可视化。然而，GUI编程也很困难，因为它需要多种技能和知识，如图形设计、用户界面设计、事件驱动编程、特定平台的库和框架以及测试和调试等。我们演示了GPT-4在GUI编程方面也是专家，知道如何创建准确的布局并处理复杂的输入事件。

图 C.2：GPT-4根据提示编写生成查询模型GUI的程序。

GPT-4分析提示并提取相关细节，例如布局、小部件、标签和操作。它为查询模型创建一个单独的线程以避免阻塞GUI运行，并设置标志以在用户取消操作时终止该线程。它使用正则表达式来识别并突出显示由$符号包围的表达式，就像LaTeX编译器一样。它还使用nltk包在查询模型完成后生成文本摘要。此外，它会从常识中推断，即使提示没有指定此功能，加载按钮也应允许用户浏览和选择要加载到文本输入中的文件。

我们再次测试GPT-4的零-shot GUI编程能力，要求它创建一个绘图面板并跟踪先前绘制对象的列表，这是一个相当具有挑战性的任务。

图 C.3：这四张图片分别是（从左上角到右下角）：在选择弯曲箭头之前，选择弯曲箭头（5秒内），选择弯曲箭头5秒后，删除弯曲箭头后的情况。

尽管GPT-4的代码对于绘制弯曲箭头仍需要一些改进，但它在所有方面都忠实于自然语言描述。GPT-4有效地使用颜色来强调选择的对象，将其更改为红色并保持5秒钟，然后恢复为原始颜色。GPT-4还维护了所绘制对象的一致性，确保从列表中删除时它们也从绘图面板中删除。此外，当用户拖动鼠标进行绘制时，GPT-4还记得显示中间对象。

C.6 逆向工程案例

C.7 测试 GPT-4执行伪代码的能力

我们要求GPT-4执行以下伪代码：

图 C.4：测量GPT-4的伪代码执行能力。

函数g接受两个输入数组，输出是通过将两个数组的数字反转并连接起来，然后相乘得到的。我们将一个输入数组固定为长度为4的数组，每个元素随机从11-99中抽取，并改变另一个数组的长度。我们获得以下准确性与长度/步数（此处步数表示数组r将被更新的次数）的关系图：

我们可以看到，即使在96个步骤之后（当模型的输出接近其8129个token的限制时），该模型仍然能够将数组r的跟踪保持在54％左右（这里准确性的意思是输出与输入实例完全匹配的百分比）。显然，这还不足以作为编译器（执行程序），但已经是迈向能够执行伪代码的AGI编译器的重要一步。事实上，GPT-4还可以通过生成特定编程语言中的等效代码来应用它的技能于伪代码。对于GPT-4来说，这项任务并不具有挑战性，因为它已经展示了自然语言指令导致其出色的编码能力。在本节中，我们的主要观点是展示GPT-4不仅可以编写代码，还可以理解编程的工作原理并正确地执行它。

D 数学推理的额外示例

D.1 限制

虽然GPT-4在解决数学问题方面已经取得了一定进展，但它还不是一个完美的系统。尽管某些无法得出正确解决方案的失败可能源于缺乏理解，但许多其他错误却可以追溯到更局部的错误。这些错误通常可以归结为几个类别之一，例如注意力或算术错误。以下，我们以非详尽的方式突出并讨论了在解决数学问题时经常遇到的一些典型错误类别。

算术错误：虽然GPT-4在避免算术错误方面优于旧模型，但无论是使用具体数字还是抽象表达式，它仍然难以解决此类错误。

重要的观察结果是，当GPT-4跳过计算中的步骤而不是将其分解为较小的步骤时，它更容易出现算术错误。为了说明这一点，请考虑以下示例：

在这个例子中，所产生的方程式包含一个错误。另一方面，如果我们提示模型将计算分解为较小的步骤，它会得出正确的解决方案：

这些示例突出了一个非常常见的问题，即在计算步骤中执行多个原子操作会导致错误（这个问题在文献中是众所周知的，在第8节中也进行了讨论）。由于在线数学资源通常省略计算步骤（期望读者能够补充它们），因此不足为奇的是，自回归模型对此也会产生偏向性。

人们可能希望通过简单地提示模型“逐步思考”来完全消除这个问题。然而，从上下文中并不总是清楚该指令的含义，如下面的例子所示：

我们可以看到，即使我们要求模型不要在一次计算中合并同类项，它仍然有可能跳过步骤。我们通过选择L∈[5]，并随机抽取每个ai∈{-1,1}，bi、ci∈{-5,；4,···，4,5}来测试模型。准确性如下表所示：

上表分析了LLMs在非常简单的代数问题上的表现。虽然GPT-4在性能上比以前的模型有了显著提高，但我们可以看到随着L的增加，模型更容易出现计算错误。我们手动检查了100个错误实例，发现90％以上的错误是由于合并类似项时跳过步骤造成的。这指向了模型的一个重大限制，并启发了以下研究问题：

是否有一种有效的方法来训练或微调LLM，使它们将计算分解为较小的步骤，从而能够执行更准确的计算？

计数错误：可以合理地假设LLMs在计数方面会遇到困难。不仅使用变形器架构实现这个操作不容易，而且数据集中计数示例的稀缺性只加剧了这个问题。为了系统评估GPT-4在这方面的能力，我们创建了一个包含字符串序列A1，A2，· · ·，AL的数据集。其中每个Ai都是长度为k的随机数字序列。我们要求模型计算序列中不同元素的数量，答案范围在L/2和LL 1之间。下面是L = 5，k = 2的例子：

虽然与以前的模型相比，GPT-4在短序列的计数能力已经有了显著提高，但随着序列长度从5增长到10，GPT-4的准确性仍然出现了显著下降，表明它的计数容量远低于人类。由于计数是许多应用程序的基本要求，将这样的组件结合到架构中可能会产生益处。

反向推理与验证人类产生的数学内容通常在概述导致结论的推理之前先呈现结论。例如，“我们将接下来展示x = 0是一个解…”或“我们要证明的命题是：AC垂直于BD”这样的句子可以出现在数学问题的解决方案中。这种风格的选择可以提高可读性，但对自然语言生成模型构成了挑战，因为它需要模型在生成推理步骤之前推断答案。我们观察到，GPT-4不仅采用了这种风格，而且还有一个相关的缺点：即使在开头推断出一个明显错误的答案，它仍会尝试为其创建证明，而不是进行更正。这可能再次归因于训练数据的风格，其中大部分包含直接的解决方案，而不是试错式的讨论，目前尚不清楚是否可以通过强化学习阶段（如GPT-Instruct）来缓解这种问题。

在图D.1中，我们可以看到，当GPT-4从错误的结论开始时，这很快就会导致非常不连贯或毫无意义的内容（例如，陈述2≤0以证明结论）。模型在犹豫于产生局部错误和与自己的结论相矛盾之间，通常更倾向于匹配结论而不是验证逻辑的局部一致性（可以说，在中间推理过程中，训练数据更可能包含“局部”错误，而不是明显与所述结论相矛盾的步骤）。另一方面，如果模型先产生自底向上的论证，先写下步骤，然后再得出结论，性能会显著提高。我们总结以下研究问题，启发于这个讨论：

数学通常以不同于导致它的思维过程的顺序编写。如何鼓励LLMs以与人类思维过程相对应的顺序生成数学内容？

图D.1：从错误的结论开始。

D.2 更多例子

接下来，我们展示了GPT-4在不同数学分支的问题上的表现。本节中的示例并不旨在全面或代表模型在不同数学分支或水平上的表现，而是为了展示模型能力范围的感觉。下面的大多数问题都是专门为这项研究编写的（其他问题是从模型训练后出现的在线资源中获取或翻译的），因此模型在训练期间不太可能见过这些问题，因此解决了模型仅仅记住答案的担忧。这些例子将揭示，例如，尽管是语言模型，但模型可以很好地处理几何概念，并且可以就一些高级数学专题进行有意义的对话。与ChatGPT在相同问题上的表现进行比较，显示了模型数学能力的明显提高。

以下呈现的问题在难度上有所不同，其中一些可能略微超出了GPT-4的能力范围。然而，总体水平明显超出了ChatGPT的能力。我们多次使用ChatGPT测试了这些问题，并发现绝大多数尝试都产生了错误的答案。我们强调，我们首先收集了问题，然后在没有任何修改的情况下在两个模型上进行了测试，因此我们没有选择问题来有利于GPT-4的表现。

大多数示例中，ChatGPT生成的答案表现出对涉及数学问题和概念的贫乏理解。 ChatGPT答案的一个普遍特征是它们似乎依赖于一种“模板匹配”的形式，其中模型试图将问题适合到结构化问题的熟悉模式中，但因为问题与模式不匹配而失败。这导致了不连贯或毫无意义的输出，根本没有回答问题。 ChatGPT答案的另一个常见特点是，它们经常包含基于错误推理或无关信息的论据。该模型似乎没有掌握问题的要点或数学步骤背后的逻辑。即使它确实提出了正确的解决问题的一般策略，通常也会在实施或计算上犯错误。该模型还倾向于进行代数运算或计算，而没有明确的方向或目的，导致混淆或误差。另一方面，由GPT-4给出的答案通常更连贯，准确，并且与问题相关。它们展示了更好的数学概念和方法的理解，并为其步骤和解决方案提供了清晰和逻辑的解释和证明。

在这些例子中，我们不尝试分析ChatGPT失败或GPT-4成功的原因，但我们为每个例子提供简要评论，其中我们评估模型的答案，就好像它们是由人类编写的。我们尝试指出答案所展示的理解或洞察力方面，或缺乏这些方面。

D.2.1 代数

以下问题是高中数学的高级水平，依赖于函数组合和反演的概念。

GPT-4给出的解决方案是正确的，论证也是有根据的，而ChatGPT提供的解决方案是错误的（在人类情况下）反映了对函数反演概念的理解不足。在下一个例子中，两个模型都给出了错误的答案。GPT-4产生的论据实际上隐藏了正确的答案，但仍然给出了错误的结论（可能是因为它开始陈述了一个错误的答案）。ChatGPT提供的论据大多是不连贯的。

下一个问题相当简单。为了解决它，需要以直接的方式简化方程，之后只剩下包含项 x^0 的方程, X^4 和 X^8, 此时一个可以意识到这是一个x^4的二次方程，可以代入求解。

GPT-4给出了正确的解决方案，而ChatGPT开始重新排列术语，没有任何明确的方向或目的，并最终得出了一个错误的解决方案。我们的最后一个例子涉及高中级别的三角学问题，这是从2022年中国高考试题翻译过来的。

在上面的例子中，两个模型都得出了错误的答案。GPT-4的论证基于正确的推理，但存在一些计算错误，而ChatGPT的论证大多包含无效的推理步骤。

D.2.2 几何

可以合理地认为，几何数学问题对语言模型的挑战更大。尽管如此，GPT-4仍然可以成功地回答某些通常需要图表或插图的问题，如下所示。

我们的第一个例子需要基础的向量微积分知识。

GPT-4通过将问题描述中的几何对象与向量符号联系起来，并在这些向量上进行操作，得到了正确的解决方案。 ChatGPT在解决方案的开始附近写下了 n + m = x 的方程，比较向量和标量（不连贯）。下一个问题依赖于基本的几何概念，如勾股定理的应用。

在这个例子中，首先需要认识到需要使用勾股定理，并找到应该应用在哪个三角形上，GPT-4正确地完成了这一步（并且稍后正确地运用了几何概念，例如完全平方面积和线段的中点）。值得注意的是，它通过数值估计来取根号115并随后对其进行平方，从而得出了一个略微不准确的数字，而没有意识到这些估计是不必要的。再次强调，ChatGPT的输出是不连贯的。

下一个问题相当简单，虽然结构不太清晰，但依赖于对等同于平移和旋转的概念的理解。

在这个问题中，两个模型都给出了正确的最终答案。然而，对ChatGPT的论证进行仔细审查会发现它是无效的，并指出了对问题所依赖的几何概念理解不足的问题。

D.2.3 微积分

下一个练习涉及计算一个积分，这是STEM学科本科微积分课程的典型内容。

GPT-4应用了分部积分技巧，成功地将积分分成两部分并得出了正确的解答。ChatGPT使用了几个没有明显目的的恒等式，在计算过程中犯了几个错误，并得出了错误的结果。我们继续看另一个典型的大学级微积分例子，涉及到隐函数求导。

GPT-4正确地应用了隐函数求导，考虑到了y和x的导数之间的依赖关系。ChatGPT的响应以“我们可以使用链式法则”开始，这与此问题无关，并继续提出了大部分不连贯的论据。本小节的最后一个问题是变分微积分的一个例子（通常在STEM学科的本科第一年教授）：

两个模型都意识到拉格朗日乘数法在这个问题中是有用的（这种策略与在约束条件下最小化某个表达式相关）。虽然ChatGPT以一种不正确的方式应用了这种方法（在人类的情况下可能被认为是缺乏理解），但GPT-4提出了一个合理的论证。

D.2.4 数学建模

我们提供两个结合了物理知识和一些常识假设的例子。

需要注意的是，ChatGPT没有考虑重量因素，仅基于体积计算来确定所需袋子的数量。虽然在日常生活中确定所需袋子数量时最常关注体积，但对于这个问题并不相关。相比之下，GPT-4通过创建物理模型来正确处理此问题的核心部分，并估计塑料袋能够承受的最大重量。然而，由于计算错误，最终的答案仍然是错误的。我们的第二个问题依赖于对传热和辐射等概念的理解。