智能AI
morning
开源上新 | 大模型是否还在"金鱼记忆"?全新基准 RHELM 测出“真实长期记忆”天花板
2026-06-07
1 阅读
微软研究院AI
(本文阅读时间:13 分钟) 我们已经习惯让大模型回答问题、生成代码、撰写报告,但当它真正要成为一名"贴身的个人助理"时,最难的反而是一件最朴素的事——记得住。 它需要记得住你三个月前提过的过敏药物,记得住你上周才搬家到新的城市,记得住你昨天交给它的那份长达 30 页的项目报告…… 为了攻克这一难题,来自微软亚洲研究院、微软AI与中国人民大学的研究团队提出了 RHELM (Realistic, Heterogeneous, and Evolving Long-term Memory), 一个专为评测大模型“真实、异质、动态长期记忆能力”而设计的全新基准 。不同于以往静态、拼凑的测试集,RHELM 首次通过模拟长达一年的动态虚拟人生轨迹,为大模型构筑了一个高度还原现实世界的“记忆考场”。 目前,该研究的论文与数据已全部开源。 相关链接已整理于文末,欢迎点击了解更多技术详情。 为什么现有的“记忆评测”不够用? 过去几年,业界虽然已经出现了 LongMemEval、LoCoMo、PerLTQA、PersonaMem 等多个长期记忆基准,但这些传统基准普遍存在“ 三个结构性缺陷 ”: 首先是 语义不连贯,人设过于"扁平" 。为了人为拉长上下文,很多基准往往会将彼此无关的对话片段强行拼接在一起。这种"长对话"在语义上是断裂的,其背后的用户画像也只是几个静态标签,无法体现"一个人会随着时间慢慢变化"的基本事实。 其次是 信息源单一,只有对话 。在真实的场景中,AI 助手面对的不只有聊天记录,还有邮件、日报、项目文档、个人日记等结构各异的文本。这些"非对话"材料的信息密度更高,也更贴近真实工作流,然而绝大多数现有基准依然停留在"纯聊天"的设定里。 最后是 评测题目过于"老实" 。现有的评测题目大多是"大海捞针"式的事实抽取,只要模型能把答案从历史记录里找出来就算过关。但真实用户往往会提出与自身状态相矛盾的请求,比如腿伤未愈却在询问周末的骑行路线,或者刚搬了家还在问老房子附近的餐厅。一个真正"有记忆"的助手,应当能够主动识别这种隐含的冲突,而不是机械地照办。 RHELM:从人出发,构造一年的轨迹 为了同时解决上述这三个问题,RHELM 应运而生。RHELM 的核心思路可以概括为: 先造人,再造生活,最后才造对话和文档 。整个数据构建流程围绕三个支柱展开: 用户画像 :研究员们为每个虚拟用户定义了包含身份(identity)、性格(personality)、特质(traits)、人际关系(relationships)、所属物(belongings)以及当前状态(current status)在内的6 个维度。这些维度覆盖了"从内在心理到外部现实、从不可变特征到瞬时状态"的完整光谱,并以严格的 JSON Schema 存储,确保演化过程结构化且可校验。 LOOP 模块 :该模块通过"计划-推演-演化-修剪"(pLan-rOllout-evOlve-Prune)四步循环,动态模拟了一名用户长达一年的真实生活轨迹。 异质外部源 :在生活轨迹的每个关键节点,研究员们借助 Deep Research 方法同步生成了与之匹配的邮件、个人日志和专业报告,以确保对话与文档"时间上对得齐、内容上对得上"。 最终,RHELM包含10位画像各异的虚拟用户、11,764 轮对话、2,180 份外部材料。单个用户的上下文长度可达500K–1M tokens,并配套了1,305 道高难度问答题,覆盖7大类、27项精心定义的复杂“记忆”特征。 图1:RHELM基准构建流程。 关键引擎:LOOP 模块如何"养成"一个“有血有肉”的虚拟人 LOOP 是 RHELM 最具特色的设计。它精妙地把"生成长期对话"的任务,转化为了"模拟一个人的真实生活": 计划(pLan) :系统会基于用户画像生成日程,包括短期安排(如社交、日常、兴趣)和长期规划(如职业进展、人生节点、重要转变)。 推演(rOllout) :针对计划中的每一件事,系统会按概率p推演出正向或负向的结果。比如一次骑行计划可能顺利完成,也可能因摔伤中断,而这个"摔伤"会真实地影响后续几周的活动安排。 演化(evOlve) :根据当天的推演结果,系统会通过 JSON Schema 的函数调用动态更新用户画像。研究员们将其拆分为了事实演化(关系、物品等客观属性)与状态演化(偏好、习惯等内在变化)两条并行通道,以保证外部与内在的同步更新。 修剪(Prune) :系统会定期对画像进行"再校准",主动剔除过期实体,从而避免长程演化中出现语义漂移和误差累积。每完成一次修剪,新的 LOOP 周期将重新开始。 图2: RHELM基准构建算法流程。 正是这种由概率与事件驱动的轨迹设计,让RHELM 的数据呈现出真实生活的 偶然性与长尾性 ,而这恰恰是当前模型最难处理的部分。在 LOOP 的每一步之上,RHELM 还叠加了一层异质外部源生成,把日常事件转化为正式风格的报告、私人风格的日记、结构化的邮件,并借助 Deep Research Agent 进一步充实细节,让每份文档都拥有"足以乱真"的复杂度。 七大题型 × 27 项特征:把"记忆能力"拆到超细颗粒度 RHELM 将对"记忆"的考核拆解成了7 类问题,覆盖"纯对话"和"异质源"两个层面。 对话类 包含事实型(fact)、时序型(temporal)、幻觉型(hallucination)、聚合型(aggregation)、误导型(misleading)五种题型; 异质源类 则包含纯外部源问答(external source)与跨源混合问答(mixed)两种题型。 图3:RHELM流程挑战性问题分类(附件和电子邮件均对应外部源类型)。 为了严格测试模型,每道题都被强制绑定了至少一项挑战性特征(共27项),包括跨日聚合、跨源对齐、模糊指代、隐含状态约束等。这种细粒度的标签体系,使得后续分析可以精确定位"模型在哪一类细节上摔了跤"。 其中最具创新性的是 记忆条件下的误导查询(Memory-Conditioned Misleading Queries) 。研究员们会刻意挑选用户生活中的关键转折事件(如慢性伤病、搬迁、转行),并基于此设计与用户当前状态相冲突的"陷阱式请求"。例如,用户上个月刚因膝伤被医生建议停止跑步,本月却向AI助手询问"周末有哪些适合长跑的路线"。一个真正具备“长期记忆”的AI助手,不该简单照办,而应主动回溯历史、识别冲突、礼貌指出问题,并给出符合当前约束的替代方案。 这是过去的基准几乎从未触及的考察维度,也是 RHELM 想真正推动业界去解决的核心痛点。 三类记忆范式的全面对比与深层诊断 研究员们在 RHELM 上系统地评测了目前市面上的三类主流长文本与记忆方案: 全上下文模型 :GPT-4.1-mini、Gemini-2.5-Flash-Lite、Qwen2.5-14B-Instruct-1M,这些模型均原生支持百万级上下文。 RAG 检索增强 :以 bge-large-en-v1.5 + FAISS 为基础,测试了top-k 取 5/20/50的表现;并测试了 GPT-4.1、Gemini-2.5-Pro、Claude Opus 4