开源上新 | 大模型是否还在"金鱼记忆"？全新基准 RHELM 测出“真实长期记忆”天花板

（本文阅读时间：13 分钟）我们已经习惯让大模型回答问题、生成代码、撰写报告，但当它真正要成为一名"贴身的个人助理"时，最难的反而是一件最朴素的事——记得住。它需要记得住你三个月前提过的过敏药物，记得住你上周才搬家到新的城市，记得住你昨天交给它的那份长达 30 页的项目报告…… 为了攻克这一难题，来自微软亚洲研究院、微软AI与中国人民大学的研究团队提出了 RHELM （Realistic, Heterogeneous, and Evolving Long-term Memory），一个专为评测大模型“真实、异质、动态长期记忆能力”而设计的全新基准。不同于以往静态、拼凑的测试集，RHELM 首次通过模拟长达一年的动态虚拟人生轨迹，为大模型构筑了一个高度还原现实世界的“记忆考场”。目前，该研究的论文与数据已全部开源。相关链接已整理于文末，欢迎点击了解更多技术详情。为什么现有的“记忆评测”不够用？过去几年，业界虽然已经出现了 LongMemEval、LoCoMo、PerLTQA、PersonaMem 等多个长期记忆基准，但这些传统基准普遍存在“ 三个结构性缺陷 ”：首先是语义不连贯，人设过于"扁平" 。为了人为拉长上下文，很多基准往往会将彼此无关的对话片段强行拼接在一起。这种"长对话"在语义上是断裂的，其背后的用户画像也只是几个静态标签，无法体现"一个人会随着时间慢慢变化"的基本事实。其次是信息源单一，只有对话。在真实的场景中，AI 助手面对的不只有聊天记录，还有邮件、日报、项目文档、个人日记等结构各异的文本。这些"非对话"材料的信息密度更高，也更贴近真实工作流，然而绝大多数现有基准依然停留在"纯聊天"的设定里。最后是评测题目过于"老实" 。现有的评测题目大多是"大海捞针"式的事实抽取，只要模型能把答案从历史记录里找出来就算过关。但真实用户往往会提出与自身状态相矛盾的请求，比如腿伤未愈却在询问周末的骑行路线，或者刚搬了家还在问老房子附近的餐厅。一个真正"有记忆"的助手，应当能够主动识别这种隐含的冲突，而不是机械地照办。 RHELM：从人出发，构造一年的轨迹为了同时解决上述这三个问题，RHELM 应运而生。RHELM 的核心思路可以概括为：先造人，再造生活，最后才造对话和文档。整个数据构建流程围绕三个支柱展开：用户画像：研究员们为每个虚拟用户定义了包含身份（identity）、性格（personality）、特质（traits）、人际关系（relationships）、所属物（belongings）以及当前状态（current status）在内的6 个维度。这些维度覆盖了"从内在心理到外部现实、从不可变特征到瞬时状态"的完整光谱，并以严格的 JSON Schema 存储，确保演化过程结构化且可校验。 LOOP 模块：该模块通过"计划-推演-演化-修剪"（pLan-rOllout-evOlve-Prune）四步循环，动态模拟了一名用户长达一年的真实生活轨迹。异质外部源：在生活轨迹的每个关键节点，研究员们借助 Deep Research 方法同步生成了与之匹配的邮件、个人日志和专业报告，以确保对话与文档"时间上对得齐、内容上对得上"。最终，RHELM包含10位画像各异的虚拟用户、11,764 轮对话、2,180 份外部材料。单个用户的上下文长度可达500K–1M tokens，并配套了1,305 道高难度问答题，覆盖7大类、27项精心定义的复杂“记忆”特征。图1：RHELM基准构建流程。关键引擎：LOOP 模块如何"养成"一个“有血有肉”的虚拟人 LOOP 是 RHELM 最具特色的设计。它精妙地把"生成长期对话"的任务，转化为了"模拟一个人的真实生活"：计划（pLan）：系统会基于用户画像生成日程，包括短期安排（如社交、日常、兴趣）和长期规划（如职业进展、人生节点、重要转变）。推演（rOllout）：针对计划中的每一件事，系统会按概率p推演出正向或负向的结果。比如一次骑行计划可能顺利完成，也可能因摔伤中断，而这个"摔伤"会真实地影响后续几周的活动安排。演化（evOlve）：根据当天的推演结果，系统会通过 JSON Schema 的函数调用动态更新用户画像。研究员们将其拆分为了事实演化(关系、物品等客观属性）与状态演化（偏好、习惯等内在变化）两条并行通道，以保证外部与内在的同步更新。修剪（Prune）：系统会定期对画像进行"再校准"，主动剔除过期实体，从而避免长程演化中出现语义漂移和误差累积。每完成一次修剪，新的 LOOP 周期将重新开始。图2： RHELM基准构建算法流程。正是这种由概率与事件驱动的轨迹设计，让RHELM 的数据呈现出真实生活的偶然性与长尾性，而这恰恰是当前模型最难处理的部分。在 LOOP 的每一步之上，RHELM 还叠加了一层异质外部源生成，把日常事件转化为正式风格的报告、私人风格的日记、结构化的邮件，并借助 Deep Research Agent 进一步充实细节，让每份文档都拥有"足以乱真"的复杂度。七大题型 × 27 项特征：把"记忆能力"拆到超细颗粒度 RHELM 将对"记忆"的考核拆解成了7 类问题，覆盖"纯对话"和"异质源"两个层面。对话类包含事实型（fact）、时序型（temporal）、幻觉型（hallucination）、聚合型（aggregation）、误导型（misleading）五种题型；异质源类则包含纯外部源问答（external source）与跨源混合问答（mixed）两种题型。图3：RHELM流程挑战性问题分类（附件和电子邮件均对应外部源类型）。为了严格测试模型，每道题都被强制绑定了至少一项挑战性特征（共27项），包括跨日聚合、跨源对齐、模糊指代、隐含状态约束等。这种细粒度的标签体系，使得后续分析可以精确定位"模型在哪一类细节上摔了跤"。其中最具创新性的是记忆条件下的误导查询（Memory-Conditioned Misleading Queries）。研究员们会刻意挑选用户生活中的关键转折事件（如慢性伤病、搬迁、转行），并基于此设计与用户当前状态相冲突的"陷阱式请求"。例如，用户上个月刚因膝伤被医生建议停止跑步，本月却向AI助手询问"周末有哪些适合长跑的路线"。一个真正具备“长期记忆”的AI助手，不该简单照办，而应主动回溯历史、识别冲突、礼貌指出问题，并给出符合当前约束的替代方案。这是过去的基准几乎从未触及的考察维度，也是 RHELM 想真正推动业界去解决的核心痛点。三类记忆范式的全面对比与深层诊断研究员们在 RHELM 上系统地评测了目前市面上的三类主流长文本与记忆方案：全上下文模型：GPT-4.1-mini、Gemini-2.5-Flash-Lite、Qwen2.5-14B-Instruct-1M，这些模型均原生支持百万级上下文。 RAG 检索增强：以 bge-large-en-v1.5 + FAISS 为基础，测试了top-k 取 5/20/50的表现；并测试了 GPT-4.1、Gemini-2.5-Pro、Claude Opus 4

订阅66必读