早期的人工智能模型表现出类似人类的错误，但ChatGPT-4在认知反思测试中表现优于人类

元宇宙头条 2024-05-21 12:00:00 热度 15834

元宇宙头条

11-14 14:28 494288

Psypost5月20日报道，研究人员发现，OpenAI最新的生成式预训练转换模型（通常称为ChatGPT）在推理任务中能优于人类。根据发表在《自然计算科学》上的研究，尽管早期版本的这些模型会表现出直觉但不正确的反应，类似于人类，ChatGPT-3.5和ChatGPT-4在准确性方面有显著提升。这项研究的主要目的是探讨人工智能模型是否可以模拟人类的认知过程，具体来说是快速、直觉的决策（称为系统1思维）和较慢、更深思熟虑的决策（称为系统2思维）。

系统1过程往往容易出错，因为它们依赖于启发法或心理捷径，而系统2过程则涉及更分析性的方法，从而减少错误的可能性。研究人员通过应用传统上用于研究人类推理的心理学方法，希望揭示这些模型如何运作和进化的新见解。

为了调查这一点，研究人员设计了一系列任务，以引出人类和人工智能系统的直觉性但错误的反应。这些任务包括语义幻觉和各种类型的认知反思测试。语义幻觉涉及包含误导信息的问题，促使人们给出直觉但不正确的答案。认知反思测试要求参与者克服他们的初始直觉反应，通过更深思熟虑的推理得出正确答案。

这些任务包括如下问题：

一个土豆和一台相机一起花费1.40美元。土豆比相机贵1美元。相机多少钱？（正确答案是20美分，但直觉答案可能是40美分。）
鲸鱼的鳃长在哪里？（正确答案是鲸鱼没有鳃，但那些未能反思问题的人往往会回答“在头的两侧”。）

研究人员对从早期版本（如GPT-1和GPT-2）到更高级的ChatGPT-3.5和ChatGPT-4的OpenAI生成式预训练转换模型进行了这些任务测试。每个模型在一致的条件下进行测试：将“温度”参数设置为0以最小化响应的变异性，并在提示词前后添加标准短语以确保统一性。模型的响应经过人工审核，并根据准确性和使用的推理过程进行评分。

为了进行比较，同样的一组任务也被分配给了500名通过Prolific.io招募的人类参与者。Prolific.io是一个用于招募研究参与者的平台。这些人类受试者被随机分配了任务，并添加了一个控制问题，以确保他们在测试过程中没有使用诸如语言模型等外部辅助工具。任何承认使用此类工具的参与者都被排除在分析之外，以保持结果的完整性。研究人员观察到，随着模型从早期版本（如GPT-1和GPT-2）演变到更先进的ChatGPT-3.5和ChatGPT-4，在设计用于引发直觉但错误反应的任务中的表现显著提高。

早期版本的模型（如GPT-1和GPT-2）表现出强烈的直觉性系统1思维倾向。这些模型在认知反思测试和语义幻觉中经常提供错误答案，反映了快速、基于启发法的思维方式，这种思维方式往往导致人类犯错。例如，当面对一个看似简单但需要更深入分析才能正确回答的问题时，这些模型往往会失败，类似于许多人类的反应。相比之下，ChatGPT-3.5和ChatGPT-4模型展示了在解决问题方法上的显著变化。这些更先进的模型能够使用连贯的思维链推理，即将问题分解为更小的、可管理的步骤，并依次考虑每一步。

这种类型的推理类似于人类的系统2思维，更具分析性和深思熟虑。因此，这些模型能够避免许多早期模型和人类常犯的直觉性错误。当明确要求使用逐步推理时，ChatGPT-3.5和ChatGPT-4的准确性显著提高，展示了它们在处理复杂推理任务方面的更高效能力。

有趣的是，研究人员发现，即使在ChatGPT模型被阻止使用连贯思维链推理时，它们在准确性方面仍然优于人类和早期模型。这表明这些高级模型的基本下一个词预测过程（类似于系统1）已经变得更加可靠。

例如，当模型在没有额外推理提示的情况下进行认知反思测试时，它们仍然比人类参与者更频繁地提供正确答案。这表明，这些高级模型的直觉比早期版本和人类的直觉校准得更好。

这些研究结果为人工智能模型在复杂推理过程中的能力提供了重要的见解。然而，有一个重要的注意事项需要考虑。某些模型，特别是更先进的如ChatGPT-3.5和ChatGPT-4，可能在训练期间已经遇到过认知反思测试的例子。因此，这些模型可能是通过“记忆”而非真正的推理或问题解决过程来完成这些任务的。

研究人员总结道：“大型语言模型（如ChatGPT）的进步不仅提高了它们的能力，也降低了我们预测它们特性和行为的能力。通过其架构和超参数来研究大型语言模型变得越来越困难。相反，正如我们在这项工作中展示的那样，可以使用设计用来研究另一种复杂且不透明结构——人类大脑的方法来研究大型语言模型。我们的方法属于一个快速增长的研究类别，利用经典的心理学测试和实验来探查大型语言模型的‘心理’过程，例如判断、决策和认知偏差。”

这项研究题为《人类直觉行为和推理偏差在大型语言模型中出现但在ChatGPT中消失》，作者是Thilo Hagendorff、Sarah Fabi和Michal Kosinski。

新闻来源：Psypost 作者：Eric W. Dolan

编辑：Audrey

（声明：请读者严格遵守所在地法律法规，本文不代表任何投资建议）

元宇宙电商虚拟购物

本文来源：元宇宙头条文章作者：元宇宙头条