Agent技术解读:Memory记忆模块
创作时间:
作者:
@小白创作中心
Agent技术解读:Memory记忆模块
引用
1
来源
1.
https://www.53ai.com/news/LargeLanguageModel/2024081845381.html
记忆模块是Agent技术中的核心组件之一,它模拟了人类记忆的获取、存储和检索过程。本文将从记忆的定义、来源、保存方式和工作原理四个方面,深入解析Agent技术中的Memory记忆模块。
大半年前,介绍了基于LLM的Agent知识,文章《大模型智能体 LLM Agent》中提到:
Agent是大模型与场景间价值传递桥梁, 重要性不言而喻。
从功能上看,Agent有多个组件构成,规划、记忆和工具使用等
Agent
LLM
- Planning + Feedback + Tool use
今天聊聊其中的一个组件:Memory,记忆模块
什么是记忆?
记忆定义为用于获取、存储、保留和后续检索信息的过程,人类大脑中主要有三种类型的记忆。
- 感官记忆(Sensory memory)
- 记忆最早阶段,提供原始刺激结束后保留感官信息(视觉,听觉等)印象的能力,通常只持续几秒钟。
- 感官记忆的子类别包括图标记忆(视觉)、回声记忆(听觉)和触觉记忆(触觉)。
- 短时记忆(STM)或工作记忆(Working Memory)
- 存储了当下能意识到的所有信息,以及执行复杂的认知任务(如学习和推理)所需的信息,大概可以存储7件事,持续20-30秒。
- 长期记忆(LTM)
- 顾名思义,LTM可以将信息存储相当长的时间,范围从几天到几十年不等,具有基本上无限的存储容量。LTM有两种亚型:
- 1)显式/陈述性记忆,即对事实和事件的记忆,指那些可以有意识地回忆起来的记忆,包括情景记忆(事件和经验)和语义记忆(事实和概念)。
- 2)隐式/程序性记忆,这种类型的记忆是无意识的,包括自动执行的技能和例程,比如骑自行车或在键盘上打字。
对应语言模型概念:
- 作为原始输入(包括文本、图像或其他形式)的学习嵌入表征的感官记忆;
- 短期记忆就是上下文学习(in-context learning),非常短且影响范围有限,受到Transformer的上下文窗口长度的限制。
- 长期记忆作为智能体在查询时可用的外部向量存储,可通过快速检索访问。
可见,记忆模块像 Agent大脑,帮助积累经验,自我进化,让行为更加一致、合理和有效。
LLM Memory设计灵感来自人类记忆过程的认知科学研究。
- 人类记忆发展:从感觉记忆开始,它记录感知输入;然后是短期记忆,暂时保持信息;最后是长期记忆,在更长的时间内巩固信息。
Agent 记忆结构设计借鉴了人类记忆特点。 - 短期记忆类似受限于transformers上下文窗口的输入信息。
- 长期记忆则类似于外部向量存储,Agent可以根据需要快速查询检索。
LLM记忆从何而来?
记忆来源: 智能体记忆内容的出处。
三种类型记忆来源:
- ①内部任务信息(Inside-trial Information): 当前任务执行信息
- 单个任务或交互过程中收集的数据。仅与当前正在进行的任务有关。
- 一个对话人物, Agent 要记住上下文信息, 以便生成连贯的回应
- ②跨任务信息( Cross-trial Information ): 历史任务重的长期积累学习
- 跨越了多个任务或交互过程,它包括了Agent在不同任务中积累的经验、学到的教训以及可能的模式识别
- 旅行计划中, Agent 从用户预订过的机票酒店,用户反馈 这类跨任务信息优化改进执行策略
- ③外部知识(External Knowledge)
- Agent 与环境交互之外的信息。
- 可能是通过API调用、数据库查询或访问在线资源(如维基百科)等方式获得的
各个 记忆实现案例 分布对比 - 参考:Agent memory大揭秘:记忆从哪儿来?
其中,ExpeL的工作流程图包含以上三种方式
LLM记忆如何保存?
记忆如何保存? 文本形式、参数形式为主
文本形式的记忆和参数形式的记忆同样也是各有千秋,它们适合不同的应用场景。
- 如果要快速回忆最近的对话,文本形式可能更合适;
- 而如果要存储大量知识,或者需要一个稳定可靠的知识库,参数形式可能更有优势。
各种记忆形式案例总结 - Agent memory大揭秘:5种记忆形态,轻松拿捏
文本形式
分析
- 好处: 易于理解和实现,而且读写速度都很快。
- 但是,如果记忆太长,就会占用很多空间,影响处理速度。
文本形式记忆可进一步细分为几种类型: - 存储完整的交互信息: ReAct
- 最近的交互信息
- 检索到的交互信息和外部知识。
MemGPT 分别体现出了短期和召回记忆;
Qwen-Agent中,通过 chatml 特有多轮格式进行分割历史的会话,最后一轮才加上ReAct的prompt。
参数形式
这种方式更高级。不直接存储文字,而是把记忆转换成模型参数,就像是把知识压缩成精华。
- 好处: 不受文本长度限制,而且存储效率更高。
- 但是,写入时可能需要更多的计算,而且解释起来也不如文本形式直观。
参数形式的记忆则涉及更复杂的技术,比如: fine-tuning 和 editing。 - 微调可以帮助模型快速学习特定领域的知识
- 而知识编辑则可以精确地更新或删除某些记忆,避免影响其他无关的知识。
经典 Character-LLM: A Trainable Agent for Role-Playing,用微调方式
图谱
另外,也有更高级的形式:图谱
比如 微软推出的 GraphRAG,使用LLM从语料中挖掘实体、关系,组成知识图谱,供下游使用。
详见:https://microsoft.github.io/graphrag/
形态上越来越像人类。
不少人将知识图谱技术利用起来,比如 Neo4j,效果示例:
使用 Cypher语言查询节点,结果融入LLM
LLM记忆如何工作?
实际应用中
- 有些系统只模拟人类的短期记忆,通过上下文学习实现,记忆信息直接写在prompt中。
- 而有些系统则采用了hybird memory(混合记忆架构),明确模拟了人类的短期和长期记忆。短期记忆暂时缓冲最近的感知,而长期记忆则随着时间的推移巩固重要信息。
- 记忆格式上,可以自然语言或嵌入向量形式存储。
- 操作方面,Agent通过记忆阅读、记忆写入和记忆反思三个关键操作与外部环境进行交互。
- 记忆阅读: 提取有意义的信息, 以增强Agent的行动;
- 记忆写入: 将感知到的环境信息存储在记忆中;
- 记忆反思: 模拟了人类审视和评估自己的认知、情感和行为过程的能力。
记忆操作像 LLM大脑,三个部分组成:记忆写入、记忆管理和记忆读取。 - ①记忆写入: LLM短期记忆, 接收到新信息时(聊天),以特殊编码方式存入"大脑"
- MemGPT : 自我指导是否写入记忆,智能体根据上下文决定是否更新
- MemoGPT : 聊天时做总结, 提取对话片段的主题, 关键词形式保存,便于查找, topic,summary,dialogues
- ②记忆管理: LLM长期记忆, 整理短期记忆信息;信息归类, 找出最重要的部分,忘掉次要信息,保持大脑的清晰、高效
- MemoryBank : 智能体从对话内容中提炼每日大事记, 同时不断评估,生成个性特征
- Voyager : 智能体根据环境反馈优化记忆
- Generative Agents : 智能体自我反思,获取更高层次的信息. 从事件信息中生成抽象想法
- GITM : 记忆模块中总结多个计划的关键行动, 建立各种情况下的共同参考计划, 提取最重要的行动步骤
- ③记忆读取: 使用LLM记忆解决问题
- ChatDB : SQL操作完成记忆阅读
- MPC : 从记忆池里检索相关记忆, 使用思维链示例方式,忽略次要信息
- ExpeL : 用Faiss向量库作为记忆池, 找出与当前任务最相似的k个成功示例.
参考:Agent memory大揭秘:轻松搞定记忆写入、管理、读取
热门推荐
科技创新驱动养牛业变革:从遗传选择到可持续发展
佛教双塔、道教石雕、世俗骑楼:泉州三景展现千年文化交融
别再用牙膏了!伤口换药的正确方法和常见误区
专业医生教你:7步清创+6步换药,伤口护理这样做
坚果Pro续航优化指南:从系统设置到使用习惯,全方位提升手机续航能力
纯铜vs铜锌合金:紫铜带和黄铜带的性能差异与应用选择
坐朝问道与垂拱平章:古代帝王的治国哲学
秦始皇登上历史最强帝王榜单
《漫威争锋》灵蝶:从3D模型拆解到社区爆火的幕后故事
神奇四侠加盟,《漫威争锋》新赛季引爆
秋季芥菜种植指南:光头芥菜 vs 叶用芥菜
阿菲夫两助攻+补时绝杀,卡塔尔3-2险胜乌兹别克斯坦
卡塔尔3-2逆转乌兹别克斯坦,绝杀瞬间点燃全场!
泥人张第六代传人张宇:传统与现代的完美融合
灰石250车主必看:常见故障大揭秘
方向盘抖动怎么办?教你快速诊断汽车故障
原神5.0版本设备要求大揭秘:你的手机/电脑还够格吗?
《原神》新手启动指南:米哈游启动器 vs Whisky工具
巴西第二代乙醇技术引领全球能源转型
30%笔试通过率下,如何成功逆袭教师资格证考试
教资考试新变化:笔试难度提升,这些备考技巧助你通关
昆明新开免费观鸥公交,地铁5号线直达海埂大坝
七年级上册语文必读:《春》《济南的冬天》《雨的四季》
高甘油三酯血症防治:饮食运动双管齐下,专家这样建议
读懂这20句诗词,参透人生百态
自媒体版权遭侵犯,教你三步维权
新媒体运营必读:如何规避版权风险
JDM现身GTA:日本特供车如何影响游戏体验
巨蟹座男生的最佳职业选择揭秘
鼓幼江北分园:在“小小健康城”里探索“三元进阶”路径