Memory 策略看 Context Engineering 的熵减哲学

为什么和 AI 说话总是很累？

你有没有发现，和老朋友聊天只需一个眼神，而和 AI 聊天却需要写小作文？

这背后的差距只有一个词：熵（Entropy）。在信息论中，熵代表了不确定性。老朋友拥有与你的共享记忆，能自动补全你话语中的空白（低熵）；而 AI 缺乏这层语境，导致每一个简单的词汇背后都隐藏着巨大的歧义（高熵）。

Context Engineering（上下文工程）的本质，就是帮机器完成这场"填空题"，弥补机器与人类认知的巨大鸿沟。

我们不再只是机械地存储对话，而是通过构建分层的 Memory（记忆） 系统，主动捕捉那些丢失的情境信息。本文将结合腾讯云 Memory 的实战案例，探讨如何通过技术手段为机器"减熵"，让你的 AI 应用从"人工智障"般的反复确认，转变为"心有灵犀"的精准执行。

一、什么是 Context Engineering 的"熵减"：从公式到直觉

1.1 什么是熵？先看一个"小李"的例子

在深入技术定义之前，我们先看一个极简的生活场景。

你正在忙手头的工作，头也不回地对身边的老搭档说了一句："叫上小李，到时老地方见。"

老搭档点了点头，立刻去做了。哪怕你什么细节都没交代。

但如果你对 AI 助手说同样的话，它大概率会产生幻觉（或者开始胡言乱语）：

"小李"是谁？ 是通讯录里的李经理？隔壁部门的老李？还是这周新来的实习生小李？
"到时"是什么时候？ 晚上九点？十点？还是明天早上？
"老地方"是哪里？ 是一间饭店？公园的池塘旁边？还是办公休息区？

这就是 熵（Entropy） 的差异。

（熵，代表不确定性。可能性越多、结果越难预测，熵就越高。越有序、越清晰，熵就越低）

在人类的默契中，"那个东西"和"老王"的具体指向，已经被共享的记忆、当前的情境和过往的习惯瞬间坍缩为唯一确定的事实——这是一个极低熵的交互。

但在机器看来，这一句话背后对应着成千上万种可能性的组合——这是一个极高熵的指令。

Context Engineering（上下文工程），本质上就是我们在充当翻译官，把人类习惯的高熵表达，转化为机器能理解的低熵指令。

1.2 上下文工程：在改"模型"之前，先改"输入"

如果把大模型拆解到最抽象的数学核心，它其实是一件非常冷冰冰的事情：

用户当前的问题 / 指令；
系统提示词（System Prompt）：告诉模型"你是谁、在干什么"；
Memory（跨会话记忆）：以前发生过什么；
可用的工具列表（Tools）及调用方式；
外部知识库（RAG）的检索片段。

把这些东西怎么选、怎么排布、怎么取舍和压缩，就是 Context Engineering。

在 Context Engineering 2.0 这篇论文中，作者给出了一个更具哲学意味的定义：

Context Engineering 是设计与优化上下文的收集、存储、管理与使用的系统性过程，旨在弥合人类（碳基智能）与机器（硅基智能）之间的认知差距（Cognitive Gap）。

当你随口一说，它能不能听懂"你到底想要啥"；当业务系统把一堆日志塞给模型，它能不能抓住关键。这不只是"模型大小"的问题，而是"我们有没有把上下文准备好"的问题。

1.3 熵减视角：把"乱度"降下来

Context Engineering 2.0 提出了一个核心观点：上下文工程本质上是一个"熵减过程"。

这里的"熵"不是物理课本上的热力学公式，而是指信息的"不确定性"：

人类是高熵的：情绪、暗示、省略、背景知识、语气的停顿……很多信息你没说出来，因为你默认对方会"脑补"。
机器是低熵需求的：它无法自动"脑补"，它看到的只是一串 Token。如果我们把现实世界原封不动地丢给它，信息太多、太杂、结构太差，它很难从中找出"这次任务真正要用的那点东西"。

所以，Context Engineering 做的事情可以粗暴概括为三步熵减：

收集（Collect）：从人类和环境那里捕获所有潜在信息，不漏掉关键线索。
整理 / 抽象（Organize / Abstract）：把这些信息结构化、压缩、过滤掉噪声。
使用（Use）：在具体任务前，从上述材料中只挑出和这次任务最相关（Relevant）的一小撮，精准送进模型。

从这个角度看，刚才那个简单的函数就可以画成一条更长的链路。

1.4 Context Engineering（CE）2.0 里的核心公式

为了更科学地描述这个过程，Context Engineering 2.0 提供了一组形式化定义，我们可以这样通俗地理解。

1.5 Memory 在其中的地位：人类侧的"减熵器"

在这个庞大的 CE 框架里，Context 包含了很多东西：系统指令、工具输出、知识库文档……那么 Memory 到底是干嘛的？

如果说 Knowledge Base（知识库） 是在帮模型"搞懂世界"（世界通识熵减），那么 Memory 更像是在帮模型"搞懂这个具体的人、这次具体的长期任务"。

Memory 是 Context Engineering 管道里专门面向"人 + 时间"的熵减工具。 它的核心使命，就是把关于"这个人、这段关系、这条任务线"的海量高熵碎片，在漫长的时间维度上，压缩成少量、有序、可复用的结构化语境。

没有 Memory，AI 永远活在"现在"，每一次对话都是高熵的冷启动；
有了 Memory，AI 才拥有了"过去"，从而能以极低的熵值，理解你那个简单的"好"字背后，究竟意味着什么。

二、Memory 是什么：一套"意图识别 + 信息补充"的熵减工具

如果说大模型是那个智商超群但只有 7 秒记忆的"超级大脑"，那 Memory 就是我们给它外挂的"记事本"。但在 Context Engineering（上下文工程）的精密流水线里，Memory 绝不仅仅是简单地"存几条聊天记录"。

2.1 从 CE 视角重定义 Memory：不只是存储，而是"预判"

在传统的认知里，Memory 像是一个仓库，把用户说过的话堆进去，需要的时候翻出来。但在 Context Engineering 的管道（Pipeline）中，Memory 是一个动态的、专门面向"人 + 长期任务"的上下文层。

它的核心目的非常单纯，就是做两件事来降低交互的熵：

1. 意图熵减（Intent Reduction）：让模型更快听懂你

这就好比你楼下的便利店老板。

没有 Memory（高熵状态）：你每次去都要说："老板，我要一包红软，不要硬的，要打火机。"
有 Memory（熵减状态）：你只要进门点个头（Token 输入极少），老板就把烟和火机递过来了。

Memory 在这里的作用，是利用历史数据将模糊的"点头"瞬间坍缩为精准的"买烟"意图。

2. 知识熵减（Information Supplementation）：克制的背景补充

当你在聊"这一版代码怎么改"时，Memory 不需要把整个项目的 10 万行代码都塞进 Prompt（那是上下文污染），它只需要在关键时刻，像身边的老员工一样递上一张纸条："注意，这个模块之前的鉴权逻辑是 OAuth 2.0，别改坏了。"

关键在于"克制"：只补当前决策最缺的那一点高价值背景，多给一分都是噪声。

2.2 从需求侧看：我们到底想要什么样的 Memory？

如果去问用户或业务方"你们想要什么记忆功能"，他们的回答通常很散乱。当我们把这些需求像剥洋葱一样剥开，会发现它们对应着 5 种不同维度的熵减渴望：

1. 角色扮演不掉皮，指令不失忆

痛点：很多 Agent 聊着聊着就忘了自己是"苏格拉底"还是"猫娘"，或者在第 20 轮对话后把用户最开始强调的"请只用 JSON 格式回复"抛诸脑后。
需求本质：用户希望"人格设定（Persona）"和"关键约束（Constraints）"成为一种长期持有的低熵语境。不应该让用户每隔几轮就手动重启一次"嘿，别忘了你现在的身份"。

2. 个性化与用户画像：越用越懂你

痛点：千人一面的 AI，像流水线工人，没有温度。
需求本质：
- 教育场景：希望 AI 老师不是只看到"这道题错了"，而是调出记忆——"小明，你在这个知识点上已经错了三次，且都是因为正负号混淆"。这就是"千人千面"的教学。
- 营销 / 服务：不是生硬的推销，而是基于记忆——"上次您买的那款猫粮快吃完了吧？"。但这需要极高的可解释性，既要懂用户，又不能让用户觉得被"过分偷窥"。

3. 上下文连贯：长任务不割裂

痛点：在长达几小时的 Coding Session 或复杂的售后流程中，用户最怕那种"换个客服就要从头解释一遍"的割裂感。
需求本质：这是一个"收集 → 压缩抽象 → 基于摘要复用"的接力赛。Memory 需要像接力棒一样，承载上一轮任务的动量和状态（State），传递给下一轮，让用户感觉不到"断档"。

4. 信息的存储与挖掘：把互动变成"可再利用资产"

痛点：对话是流逝的，聊完就没了。
需求本质：B 端客户非常看重这一点。对话、文件修改、点击行为，这些都是高价值资产。
- Memory 的作用类似于推荐系统里的"打标签"，但更高级。推荐系统处理的是结构化点击流，Memory 处理的是非结构化的文本。
- 我们不仅要利用已有的记忆服务用户，还要从服务过程中反向挖掘（Mining）出新的画像信息，形成数据闭环。

5. 让 AI 更有"人味"：记住关系，而非只记事实

痛点：AI 记得住"你叫 Bob"，但记不住"Bob 最近工作压力很大，需要鼓励"。
需求本质：人类关系的建立依赖于情感共鸣的积累。Memory 需要记录的不仅仅是 Fact（事实），更是 Relationship（关系）。它要记住你的立场、你的情绪曲线、你未表达的隐忧，让互动从"一问一答"升级为"持续的人际关系"。

2.3 小结：Memory 在 CE 里的角色

一句话总结：Memory 是 Context Engineering 管道里的"人类侧减熵器"。

它的使命，就是把关于"这个人、这段关系、这条任务线"的海量高熵碎片，实时压缩成少量、有序、可被复用的结构化语境，在 AI 还没开口之前，就已经帮它铺好了理解用户的路。

三、Claude 的秘密：从 Chat & Code 看"记忆的熵减侧重"

为什么在众多模型参数差异不大的情况下，很多开发者和用户觉得 Claude 在处理复杂上下文时显得"更聪明"？

秘密除了模型本身的推理能力（IQ），还在 Context Engineering 的策略上。如果我们仔细拆解 Anthropic 在 Chatbot 和 Claude Code 两种应用下的设计，会发现它在做两件截然不同的"熵减运动"。这给我们的 Memory 设计提供了极佳的参照系。

3.1 Chat 模式：以"人和对话"为中心的熵减

在 Chatbot 场景里，Claude 的记忆设计明显是围绕"人 + 长期对话"做熵减的。

从官方说明和近期升级可以看出，Claude 的 Memory 默认记的不是一堆零散句子，而是围绕几类稳定信息做摘要：用户的身份和角色、偏好的语言 / 写作风格、正在进行的项目、客户需求和团队工作流等。

这些记忆被组织成不同的"空间"：个人空间、工作区（workspace）、项目空间，每个空间单独维护自己的记忆，避免把 A 项目的上下文带到 B 项目里。用户可以在设置页统一开关 memory，也可以在对话中显式让 Claude 记住 / 忘记某条信息，甚至开启类似"隐身模式"的无记忆会话。

从「减熵」的角度看，Claude Chat memory 主要在减这三类不确定性：

谁在说话：我是哪个用户、处在什么角色（学生 / PM / 开发 / 客户），知识背景大概如何。
我们在聊哪条长期话题线：当前属于哪个项目、哪门课、哪组 OKR、之前已经达成了哪些共识。
这次回答应该沿用什么风格和立场：要不要列表、要不要代码、是科普口吻还是正式方案。

实际表现出来就是：项目空间 + 历史对话摘要 + 可编辑的 memory，一起构成一个相对稳定的"对话壳"。哪怕你隔几天再回来问"上次我们说到哪了？"、"帮我按之前的风格继续写"，模型也能在这个壳里延续同一个"你"和同一条叙事线，而不需要你从头再介绍自己。

换句话说，Chat 场景下的记忆，更像是在对"人物与故事线"做熵减，把"这个人是谁、这段关系的历史是什么"压成少量持久标签和摘要，降低每次意图识别的成本。

3.2 Code 模式：以"仓库和任务"为中心的熵减

到了 Claude Code，这套记忆的重心就完全换了位置：从"记住你这个人"，转向"记住这条任务线"。

Claude Code 的文档和实战经验大致能总结出几层记忆来源：

项目内的持久说明文件：模型的"小本子"，例如 CLAUDE.md，里面写清楚项目结构、开发规则、"不该碰"的目录、质量标准等，作为长期记忆骨架。
Claude Code 自身的跨会话记忆：可以记住常用命令、偏好的代码风格、固定的工作流提示等，但这些更多是"工作环境习惯"，而不是 Chat 那种"整个人生画像"。

在 Coding 场景下，记忆在减的熵，主要是三件事：

当前 repo 的结构和边界：重要模块在哪里、依赖关系如何、哪些目录是生成物不能改。
当前任务的进度和上下文：这次重构 / debug 已经做了哪些步骤、尝试过哪些方案、当前假设是什么。
约束和红线：必须遵守的架构原则、测试要求、安全 / 合规限制等，通常写在 CLAUDE.md 或项目配置里。

为了防止"上下文污染"和"越写越糊"，Claude Code 还强调上下文隔离：通过 MCP 配置、子代理（sub-agents）和 slash 命令，把不同工具、不同子任务放在各自的子上下文里，用需要的时候再拉进主会话，避免所有东西都挤在一个 20k token 的大对话里。这本质上也是一种熵减：让每个子任务只面对自己那一小块"世界"，而不是整个仓库的混沌态。

3.3 这对我们设计 Memory 的启发

通过对比可以看出，Memory 绝不是一套通用的"记下来就完事"的功能，而是一个高度场景化的命题：

Chatbot 场景：需要的是 Intent Memory（意图记忆），对抗的是人格与话题连续性的熵增。
Coding 场景：需要的是 State Memory（状态记忆），对抗的是系统复杂度和任务进度的熵增。

Memory 设计的黄金法则，不是"记多一点就更聪明"，而是要精准识别"当前场景下，哪种不确定性（熵）是最致命的"。

是怕它忘了"我是谁"？还是怕它搞乱了"代码依赖"？

基于这种"分场景、分层级"的熵减思考，才能构建出更高效的 Memory 框架。

四、"Attention before Attention"：Memory 设计中的两大熵减挑战

是一节从"战壕"里带回来的实战总结。

在开发腾讯云数据库 Memory 产品的过程中，我们发现理论上的 Context Engineering 2.0 到了工程落地阶段，会撞上无数具体的"墙"。这些墙逼迫我们承认一个事实：Memory 不仅仅是数据库的读写，而是一场在有限算力和时延预算下的"注意力保卫战"。

LLM 的核心机制是 Self-Attention（自注意力），它决定了模型把算力聚焦在上下文的哪里。但 Memory 系统要做的事，是在 Token 进入模型之前，先进行一轮筛选。

这些挑战被称为 "Attention before Attention"。这一过程极其凶险：做得好是"神助攻"，做得不好，Memory 本身就会成为最大的噪声源。

4.1 储存层的挑战：数据完整性与结构化约束

在 Memory 系统设计中，我们追求极致的个性化，理论上应存储所有用户相关的轨迹。然而，工程实践证明，如果存储阶段缺乏结构化（Schema），单纯地增加存储量，本身就是在引入高熵（High Entropy），即制造系统不确定性。

我们必须在保留原始细节（避免稀疏信号）与防止关键信息丢失（避免暴力压缩）之间取得平衡。实战中存在三种关键的存储陷阱：

陷阱一：数据碎片化（Over-Sparsity）

类别	描述
现象 / 故障模式	系统机械性地记录每一轮对话的原始文本（Event），但丢失了高层次的任务结构（Task Schema）。
系统影响	记忆成为无结构的短文本集。在召回（Retrieval）阶段，检索引擎必须处理成千上万条低关联度的短文本。由于缺乏完整的语境链条，LLM 无法拼凑出完整的上下文，无法理解事情的来龙去脉。
设计原则	存储必须包含结构化 Schema。没有"结构"的存储，只是数据的堆砌，而非可用的记忆沉淀。

陷阱二：过度抽象化（Over-Abstraction）

类别	描述
现象 / 故障模式	为了节省 Token 和存储空间，Memory 系统实施暴力摘要压缩（Summarization），将大量互动（如 100 轮对话）压缩成结论。
系统影响	关键的中间状态信息被丢弃。例如，在 Coding 或教学等长时序任务中，"用户尝试过这种方法但失败了"的过程数据往往比最终结论更重要。信息丢失将导致 AI 建议用户重复已失败的方案，造成效能退化。
设计原则	摘要是减熵，但过度摘要是信息损耗。摘要粒度必须确保保留任务的中间过程颗粒度。

陷阱三：记忆孤岛效应（Isolation）

类别	描述
现象 / 故障模式	单一记忆 Event 缺乏情境背景，未挂载至具体的 Scene ID 或 Task ID 上。
系统影响	导致语境错位（Context Mismatch）。例如，在"做饭"的场景下错误召回"写代码"时的偏好。这种典型的熵增直接导致 Agent 人格偏移和用户体验中断。
设计原则	记忆必须有"锚点"。Memory 的隔离性（Isolation）是召回准确性的底线，应将零散的对话聚合为"有情境边界的块"来对抗"记忆孤岛"。

4.2 召回挑战：在"拒绝污染"和"拒绝弱智"之间博弈

如果说存储是打地基，召回就是走钢丝。我们在落地中收到的最激烈的业务反馈往往聚焦于此，实践中的召回往往存在着"效果-速度-泛化能力"的不可能三角。

挑战一：拒绝上下文污染

项目	说明
挑战名称	宁缺毋滥：业务方对"过召"的恐惧
关键矛盾	业务方，尤其是 B 端客户，普遍强调 "宁可少召，也不能把整个情境污染掉。"
后果分析	如果召回了错误的历史信息（例如，将旧的错误价格带入新的报价单），这不仅无法减熵，反而会成为严重的误导。这是一种典型的熵增效应。
设计结论	高可用 Memory 的召回结果，不仅要具备相关性（Relevant），更要保证低歧义性（Unambiguous）。召回策略必须以防止污染为最高优先级。

挑战二：RAG 式检索的局限

项目	说明
挑战名称	信息茧房：向量相似度陷阱
机制陷阱	如果 Memory 召回过度依赖向量相似度，即只关注当前 Query 的字面相似度，系统很容易陷入局部最优解。
现象描述	当用户表达模糊的意图（如"还是以前那个老问题"）时，传统的检索只匹配"老问题"这三个字，而无法理解其指代的是"上周二讨论的数据库死锁"。
工程评价	这体现了 Memory 缺乏多跳逻辑推理的能力。记住了许多数据，但缺乏根据情境判断和深层关联的能力。

挑战三：多跳召回的工程化难度

项目	说明
挑战名称	"不可能三角"中的时延压力
工程难度	真正有价值的回忆往往是多步间接相关的（类似于多跳问答，Multi-hop QA）。
时延挑战	为了不拖慢整体对话的用户体验，我们必须在 500ms 的极短时延预算内，完成复杂的召回流程：粗排 → 精排 → 甚至小规模 Agentic Search。这不仅是算法的挑战，更是对工程架构的极致考验。

挑战四：召回片段的低熵化处理

项目	说明
挑战名称	模型易理解的保证
核心要求	召回任务不只是将历史数据搬运出来，而是要确保搬运出来的形态是模型好消化的。
实践要求	召回的片段必须以清晰、简洁、带语境说明的形式拼接到上下文。模型接收到的不应该是"几句莫名其妙出现的旧话"，而必须是有背景的结构化的提示。

核心总结：召回阶段的任务，不是为了证明"我记住了"，而是"在极短时间内，选出那几条能对当前决策产生真实减熵效果的记忆"。

4.3 "Attention before Attention" 的深层含义

LLM 的 Attention：是在一屋子人里，决定盯着谁看。
Memory 的 Attention：是决定放哪几个人进屋子。

好的 Memory 产品，核心工作就是做好这道"门卫"：把模型真正需要的那点东西，在 500ms 内准备好，挡住噪声，放进信号。这就是 Context Engineering 在工程侧最极致的减熵体现。

五、Memory 的分层记忆，如何工程化落地熵减

在上一章，我们列举了 Memory 设计中的"不可能三角"：要存得全又要召得准，要理解深又要速度快。面对这些矛盾，单纯堆砌向量数据库（Vector DB）是无法解决问题的。

我们最近探索的解法，是利用信息的"层级性"。我们参考人类大脑的运作机制，设计了一套 "三层存储 + 三层召回" 的架构，兼顾信息留存和使用效率，将 Context Engineering 的熵减过程工程化。

5.1 三层存储：从 Event → Scene → Record

不是简单地把对话"扔进库里"，而是像图书管理员一样，对信息进行三级"提纯"。Event 保底不丢细节，MemoryBook 保证任务有情境，Record 把长期认知抽成高密度标签。三层协作，将"原本混沌的数据流"逐级清洗为低熵的上下文。

1. Event 原文层：降低"原始语境丢失"的熵

角色：最底层的"黑盒录音机"。它按时间顺序，完整记录谁（Source）在何时（Time）说了什么、做了什么。
熵减逻辑：
- 对抗"过度抽象"：上一章我们提到，过度总结会导致信息丢失。Event 层不做任何有损压缩，只保证"不丢原话"。它是所有上层记忆的 Source of Truth（事实之源），确保当模型需要追溯细节时，有据可查。

2. Scene 情境层：降低"任务碎片化"的熵

角色：这是我们对抗"记忆孤岛"的核心设计。我们按照任务（Task）或场景（Scene），把散落在时间线上的 Events 聚合成一册册 MemoryBook。
结构：每本 MemoryBook 包含多个 Scene（例如"2025-03-01 数学课：分数加减"）。每个 Scene 挂载了该场景下的关键原文片段，以及从中提取的阶段性结论。
熵减逻辑：
- 对抗"语境错位"：它把零散的对话压缩成了"有情境边界的块"。未来召回时，模型拿到的不是凭空的一句话，而是连同"这是哪次课、哪轮项目讨论"的背景一起拿回来，彻底解决了"聊代码时突然跳出做饭建议"的串味问题。

3. Record 记录层：降低"长期认知模糊"的熵

角色：这是信息密度最高的一层，类似于"档案卡"。我们从海量 MemoryBook 中跨场景抽取高价值信息：用户画像、稳定偏好、关键时间线事件。
灵活性：Schema 支持业务定制（教育版存学习进度，电商版存品牌偏好）。
熵减逻辑：
- 对抗"意图识别的高熵"：把用户一生的混沌交互，压成了一张几十 KB 的结构化卡片。在对话开始的毫秒级瞬间，模型就能通过这张卡片完成"意图校准"。

5.2 三层召回：在 500ms 内完成"注意力路由"

存得好是为了用得好。在召回侧，我们针对"时延"与"准确性"的矛盾，设计了一套从近到远、从快到深的路由机制。

1. 当前对话层：直接使用 Event 上下文

策略：优先将最近几轮 Event 原文直接拼接进 Context window。
解决痛点：解决"金鱼记忆"问题。保证模型对"上一句说了什么"有绝对精准的短期记忆，避免用户在十几轮内反复重复需求。

2. 任务情境层：唤醒 MemoryBook，跨时间"接力"

策略：当对话跨越了轮次、甚至跨越了天数时，系统根据 Session ID 或 Task ID 唤醒沉睡的 MemoryBook。
解决痛点：解决"长任务割裂"问题。
关键工程创新：异步预召回（Async Pre-fetch）
- 为了对抗 500ms 的时延死线，MemoryBook 具备"预判"能力。它始终"盯着当前任务"，在用户真正开口提问之前，后台可能已经根据当前场景（如"进入小明的期末复习模式"），预先拉取了相关的错题记录。
- 这是真正的 Attention before Attention：用空间换时间，让实时召回更轻快，但模型依然"有备而来"。

3. 长期档案层：快速检索 + Agentic Search 深挖

策略 A（快速路）：在极短时间内，通过向量 + 关键字双路检索，从 Record 层提取与当前 Query 最相关的长期记忆（如用户称呼、忌口）。
策略 B（深思路 - Agentic Search）：
- 针对"我去年今天在干什么？"或"总结我过去一个月的代码风格"这种复杂问题，单纯的 RAG 会陷入"信息茧房"。
- 此时触发 Agentic Search：让一个小型的内部 Agent 进行多轮检索 + 逻辑推理。虽然耗时稍长，但能解决多跳逻辑问题，充当 MemoryBook 的"幕后智囊"。

5.3 指标与现象：熵减设计的实战回响

这套"三层存、三层用"的架构，在实际落地的内部评测中，带来了显著的体验质变：

时序记忆的突破：

在面对 "我去年今天在做什么？" 这类强依赖时间线索的召回任务时，仅使用基础模型（Qwen3-coder）的准确率约为 45%（容易产生幻觉或遗忘）；接入分层 Memory 后，准确率提升至 88%。这证明了结构化存储对"时间熵"的有效抑制。
长链路任务的"减负"：

在复杂的 Coding 或教学场景中，用户被迫"重复说明需求与约束"的次数大幅下降。Memory 成功充当了"维持任务骨架"的角色，让 AI 的行为在跨越数天的会话中依然保持逻辑一致。
人格稳定性：

"人格错乱"与"跨会话断档"问题显著缓解。Memory 不再是零散的回忆片段，而是支撑 Agent 维持长期"人设"的脊梁。

六、结语：从减熵的 Memory，到我们的"数字存在"

当我们从代码与架构的细节中抽身，重新审视 Context Engineering（语境工程）的演进，会发现我们正在构建的不仅仅是一个更聪明的数据库，而是 人类与机器在认知层面深度耦合的开端。

6.1 CE 的未来：熵减操作者将从"人"迁移至"机"

Context Engineering 2.0 论文中曾预言，随着机器智能的提升，熵减的主力将逐步发生转移。

在当前的 CE 1.0 与 2.0 阶段，Memory、知识库（Knowledge Base）、工具集（Tools）本质上仍是人类工程师为模型搭建的"脚手架"。我们通过精密的 Prompt 设计和分层存储策略，手动帮助尚不具备完备心智的模型过滤噪声、提取意图。

而在未来的 CE 3.0 乃至 4.0 时代，随着模型本身推理能力与长窗口技术的突破，机器将具备自主感知、推断和构造上下文的能力。届时，Memory 系统将不再仅仅是被动的存储容器，而会演化为模型主动的 "注意力器官"，能够自主地在海量数据中进行熵减，捕捉那些人类甚至未曾意识到的隐性关联。

6.2 Digital Presence：Memory 塑造的是"低熵的你"

有评论将极致的 Context Engineering 愿景称为一种 "数字在场（Digital Presence）"。

当一个 Memory 系统经过充分的工程化设计，它所承载的便不再是冰冷的日志，而是用户知识结构、行为习惯、决策风格与情感偏好的完整映射。从这个意义上说，Memory 正在逐步形塑一个关于用户的"低熵模型"。

这个模型既是 AI 理解用户的基石，也是用户在数字世界中的投影。它不仅帮助 AI 在"此时此刻"提供精准服务，更在时间维度上沉淀了用户的"存在感"。Memory 让 AI 的交互不再是离散的计算，而变成了连续的陪伴；它让用户感到的不再是工具的冷漠，而是被理解的共鸣。

6.3 工作之余的一点思考

当我们今天严谨地设计 Memory 分层策略、致力于为机器做"熵减"时，我们一方面是在致力于让 AI 的交互更加平滑、高效；但从更深远的尺度来看，我们或许正在搭建一套可计算的 "自我叙事（Self-Narrative）"。

也许若干年后，当我们回望今天的 Context Engineering，会发现我们并不只是在给模型提供上下文，也是在往外搭建一个关于"我是谁"的稳定刻画。

如何在"让机器更有用"和"保护人作为主体的开放性"之间寻找平衡，可能就是下一代 CE 3.0 时代真正的哲学命题。

七、一些 Takeaway：如果你要自己做一个 Memory 系统，可以先想清楚这三个问题

以下清单旨在帮助您从"熵减"的视角，审视系统设计的合理性与必要性。

7.1 定位核心目标：您最想减少的是哪种"熵"？

Context Engineering 的本质是消除不确定性。但在资源有限的前提下，我们无法同时解决所有问题。请先明确您的业务痛点主要集中在以下哪一类：

1. 意图熵（Intent Entropy）

痛点：模型难以记住用户的身份，或无法准确理解指令背后的隐性需求，导致交互反复确认。
优化目标：让模型更快、更少歧义地理解"用户是谁"、"偏好为何"以及"当下的潜台词"。
适用场景：情感陪伴助手、私人助理、个性化推荐 Agent。

2. 知识熵（Knowledge Entropy）

痛点：业务数据庞杂（涵盖文档、日志、数据库），AI 在检索时容易迷失，或召回大量无关噪声。
优化目标：在海量的信息堆叠中，高效定位到"本次任务真正需要的那一片段"，实现高精度的信息供给。
适用场景：企业级搜索、法律与医疗文档问答、售后知识库。

3. 过程熵（Process Entropy）

痛点：在长链路任务中，AI 容易遗忘初始约束，或在多轮对话后逻辑崩塌，导致任务无法闭环。
优化目标：防止中途出现"状态混乱"和"结论反复摇摆"，确保任务进度如箭头般持续向前推进。
适用场景：编程辅助（Coding Copilot）、AI 教师、复杂工单处理系统。

7.2 产品与工程设计清单（Checklist）

在系统架构设计阶段，请检查您的方案是否回应了以下关键问题，以避免工程层面的熵增：

记忆层级（Hierarchy）
- 思考点：系统是否区分了 Event（原始事实）、Session / Scene（当前任务语境） 和 Profile（长期画像）？
- 建议：避免将所有信息扁平化存储。缺乏层级的记忆库极易导致检索混乱，应建立分层存储与召回机制。
命名空间与隔离（Namespace & Isolation）
- 思考点：不同项目、用户或业务线的记忆是否实现了严格隔离？
- 建议：Memory 的隔离性是数据安全与召回准确性的底线，必须防止跨项目或跨用户的记忆污染。
存储与使用的策略（Storage vs. Usage）
- 思考点：是否区分了"热记忆"与"冷记忆"？
- 建议：高优先级信息（如核心人设、任务红线）应置于 System Prompt 或上下文头部，随取随用；低频信息（如历史闲聊细节）应存入 RAG 或 MemoryBook，按需调取。
熵增监控与反馈（Monitoring & Feedback）
- 思考点：当 AI 产生错误回忆导致"幻觉"或"人设崩塌"时，是否有机制能捕捉并修正？
- 建议：设计闭环反馈机制。如果用户指出记忆有误，系统需能捕获信号并触发修正，防止错误信息在系统中累积。

7.3 业务价值转译：如何传递 Memory 的价值

在思考 Memory 系统的价值时，我们不应仅仅停留在"开发一个很酷的功能"这一层面，而应将其转译为具体的场景价值：

与其说："我们要上线一个向量存储功能。"
不如说："我们要降低特定场景下的不确定性。" 例如：
- 让教师无需重复记录每一位学生的历史学习情况；
- 让客服在接手转单时，无需重新阅读冗长的历史工单；
- 让用户无需每隔三轮对话，就必须再次强调自己的身份与需求。

当然，从零构建一套理想的"低熵"系统并非易事。如果您正在探索如何将上述分层设计高效落地，腾讯云数据库 Memory 产品或许能为您提供一种成熟的实践参考。

我们正在通过"短中长"三层架构来解构复杂记忆：利用中期 MemoryBook 辅助维护任务连贯性（应对过程熵），通过长期画像积累用户偏好（缓解意图熵），配合支持逻辑多跳的 Agentic Search 与快召回路径的极速响应，我们希望在知识熵的治理上为用户提供更精准的检索支持。愿这套基础设施能帮您省去底层的重复建设，让您能更专注于打磨上层的业务价值。

如希望进一步了解产品，可点击产品官网页面了解更多：

产品官网：https://cloud.tencent.com/document/product/1813/123054

Memory策略看Context Engineering的熵减哲学