问小白 wenxiaobai
资讯
历史
科技
环境与自然
成长
游戏
财经
文学与艺术
美食
健康
家居
文化
情感
汽车
三农
军事
旅行
运动
教育
生活
星座命理

ChatGPT 的工作记忆容量:一项实证研究

创作时间:
作者:
@小白创作中心

ChatGPT 的工作记忆容量:一项实证研究

引用
CSDN
1.
https://m.blog.csdn.net/weixin_36829761/article/details/139666643

大型语言模型(LLMs)的工作记忆容量一直是学术界关注的焦点。本文通过实证研究,首次将n-back任务应用于评估ChatGPT的工作记忆容量。研究发现,ChatGPT在言语和空间n-back任务中的表现与人类相似,具有有限的工作记忆容量。这一发现不仅有助于我们更好地理解LLMs的工作原理,也为未来开发更强大的AI系统提供了重要参考。

引言

大型语言模型(LLMs)的出现,如 ChatGPT 和 GPT-4,推动了通用人工智能(AGI)的追求,并展现出与人类相当的涌现能力。这些能力包括在多轮对话中保留上下文信息的能力,这表明这些 LLMs 可能拥有工作记忆。

在认知科学中,工作记忆通常被定义为暂时存储和处理信息的能力。它被广泛认为是人类智力的关键要素,因为它支持各种高级认知过程,如推理、问题解决和语言理解。

人类工作记忆容量的限制

对人类参与者的研究表明,工作记忆存在一个基本容量限制。虽然关于工作记忆容量限制的原因尚无定论,但执行注意假说认为,工作记忆依赖于利用注意力来维持或抑制信息。工作记忆容量的限制并非特定于记忆存储本身,而是与在干扰存在的情况下维持和调节注意力的能力有关。

n-back 任务:衡量工作记忆容量的黄金标准

n-back 任务被认为是认知科学中衡量工作记忆容量的黄金标准。这项任务要求参与者监控连续的刺激流,并判断每个刺激是否与流中 n 步之前的刺激匹配。参与者必须持续更新目标项目的内心表征,同时也要从考虑范围中剔除不再相关的项目。因此,除了存储之外,还需要一些执行注意过程。

在 n-back 任务中,一个人表现显著下降的 n 水平可以被视为其工作记忆容量的衡量标准。典型的人类表现当 n = 3 时会显著下降,这可以被定义为普通人的工作记忆容量限制。

工作记忆容量与人类智力的关系

人类的工作记忆容量已被证明与流体智力密切相关。流体智力是指独立于先前获得的知识进行推理和解决新问题的能力。使用 n-back 任务训练工作记忆容量已被证明可以有效提高流体智力,突出了工作记忆容量在人类智力中的特殊作用。

大型语言模型的工作记忆容量

然而,在人工智能领域,关于在评估和比较 LLMs 的认知能力时,哪些指标应该被接受为智力指标尚未达成共识。在本研究中,我们将 LLMs 的工作记忆定义为一种涌现能力,即选择性地维持和操作信息以进行持续的认知过程,并假设 LLMs 也具有有限的工作记忆容量。更进一步,正如工作记忆容量对人类智力的重要性一样,它也可能被用作 LLMs 涌现智力的指标。

方法

为了验证这些假设,我们使用 ChatGPT(gpt-3.5-turbo)作为 LLMs 的代表,设计了两种类型的 n-back 任务来评估其工作记忆容量,分别涉及言语和空间工作记忆。

言语 n-back 实验

在言语 n-back 任务的基本版本中,对于 n = {1, 2, 3},我们分别生成了 50 个字母序列块,使用文献中常见的字母表(“bcdfghjklnpqrstvwxyz”)。每个块包含一个 24 个字母的序列,这些字母以一次一个的形式作为用户输入提供给 API。我们在每个块中包含 8 个匹配试验和 16 个不匹配试验。LLM 被指示在匹配试验中响应“m”,在不匹配试验中响应“-”。

除了上述基本版本之外,我们还进一步探索了 ChatGPT 在以下三种任务变体上的行为表现:

  • 我们在每次试验的输入中添加了 3 到 6 个噪声符号,以检查 LLM 在无法通过简单地对刺激输入进行字符串匹配来获得正确答案时的行为。

  • 在人类行为研究中,一种常见的提高参与者表现的策略是在每次试验后提供反馈。在该变体中,在 LLM 对当前试验做出响应后,我们提供了其响应是否正确或错误的反馈,以及下一轮试验的刺激输入。

  • 思维链(CoT)提示已被证明有助于在 LLMs 中引发推理。在本变体中,我们指示 LLM 在给出响应时逐步思考。

空间 n-back 实验

虽然 LLMs 本质上是基于文本的,但至少有一项研究表明,它们具有空间推理能力。为了在此基础上继续探索 ChatGPT 的空间工作记忆,在空间 n-back 任务的基本版本中,我们使用 ASCII 字符构建了一个 3 × 3 的网格。对于 n = {1, 2, 3},我们分别生成了 50 个网格序列块,每个网格在九个位置中的一个位置上有一个字母 X。注意,字母 X 被任意选择来文本化地表示一个被占用的空间位置,可以被任何其他字母或符号替换。每个块包含 24 个网格,包括 8 个匹配试验和 16 个不匹配试验。与言语 n-back 任务类似,LLM 被指示在匹配试验中响应“m”,在不匹配试验中响应“-”。我们进一步探索了 ChatGPT 在以下任务修改版本上的空间工作记忆容量:

  • 与言语 n-back 任务的变体类似,我们也有“带噪声的空间”、“带反馈的空间”和“带 CoT 推理的空间”版本的任务。带反馈和带 CoT 推理的变体基本上与言语任务中的对应变体相同。对于带噪声的空间版本,我们在每次试验的 3 × 3 网格中添加了 1 到 3 个未被占用的位置的噪声字符(从“

© 2023 北京元石科技有限公司 ◎ 京公网安备 11010802042949号