ExpWeaver:LLM 智能体如何在隐空间中从经验中学习

笔记日期: 2026-06-08 笔记作者: Zhongzhu Zhou 论文标题: ExpWeaver: LLM Agents Learn from Experience via Latent RAG 作者: Tao Feng, Tianyang Luo, Jingjun Xu, Zhigang Hua, Yan Xie, Shuang Yang, Ge Liu, Jiaxuan You arXiv: 2606.01041v1,2026-05-31 状态/会议: ICML 2026

一句话总结

ExpWeaver 把 LLM 智能体的历史经验编码进模型自身的隐状态空间,在每个解码步骤通过潜空间检索和门控残差注入,无需把经验拼入上下文窗口,即可在 13 个任务中的 12 个上超越所有基线,同时保持与无检索基线相当的 token 消耗。

1. 前置知识

在正式介绍 ExpWeaver 之前,我先把理解这篇论文所需的背景知识梳理清楚。这一节面向刚开始了解 LLM 智能体、强化学习和检索增强生成的读者。

1.1 LLM 智能体与经验学习是什么?

语言模型智能体是指具备规划、推理和工具调用能力的 LLM。与单轮问答不同,智能体面对查询 xx 时,不仅输出答案 yy,还会生成推理轨迹 zz——逐步的思维链、工具调用序列、子目标分解等。执行结束后,环境会给智能体一个奖励信号 r(x,y,z)r(x, y, z),衡量完成质量。

经验学习的核心思想是:智能体过去的对话历史是宝贵的知识资产。如果智能体曾经正确地解决了某个问题,它当时使用的推理策略——子目标顺序、工具调用、纠错过程——可以指导未来面对类似问题时的决策。

最自然的实现方式是检索增强生成(RAG):在推理时,把相似的历史经验从记忆库中检索出来,拼接到上下文里。但这会引发下一节描述的问题。

1.2 文本 RAG 的三个核心瓶颈

把历史经验以文本形式存储并检索,有三个本质上的局限:

1) Token 开销爆炸。 每条历史经验可能包含数百甚至数千个 token 的推理过程。检索 K=3 条经验、每条 300 个 token,就会给每次前向传播增加 900 个 token,线性放大显存和计算代价。

2) 架构解耦,无法联合优化。 传统 RAG 的检索器和生成器是独立训练的。检索器不知道生成器真正需要什么,生成器也无法向检索器反传梯度。这种”两张皮”架构导致系统整体不是最优的。

3) 在策略偏移(On-Policy Drift)。 随着 LLM 在强化学习中不断更新,其输出分布会漂移。但文本经验库里用旧版策略生成的经验,与新版策略的语义空间已经对不齐了。固定的文本嵌入无法自适应。

1.3 自回归生成与隐状态的语义含义

Transformer 语言模型按 token 逐个生成文本。在解码第 tt 步时,模型的最后一层输出一个隐状态向量 htRd\mathbf{h}_t \in \mathbb{R}^d,这是对”当前上下文语义 + 已完成推理 + 下一步需要什么”的高度压缩表示。

ExpWeaver 的核心洞察:这个隐状态 ht\mathbf{h}_t 才是做检索的正确空间。在隐空间里找相似的历史经验,比在文本表面找相似词更能捕捉”解题策略上的相似”。

1.4 交叉注意力机制

Transformer 中的交叉注意力允许一个序列”查询”另一个序列中的信息。对查询向量 uRd\mathbf{u} \in \mathbb{R}^d 和键值矩阵 ZRK×d\mathbf{Z} \in \mathbb{R}^{K \times d}

CrossAttn(u,Z,Z)=softmax ⁣(uZd)Z\text{CrossAttn}(\mathbf{u}, \mathbf{Z}, \mathbf{Z}) = \text{softmax}\!\left(\frac{\mathbf{u} \mathbf{Z}^\top}{\sqrt{d}}\right) \mathbf{Z}

输出是对所有值向量的加权求和,权重由查询与每个键的相似度决定。ExpWeaver 用一个可学习的查询 token u\mathbf{u} 来聚合 K 条历史经验,并通过训练让 u\mathbf{u} 学会”对当前任务什么样的经验最有价值”。

1.5 门控残差连接

门控残差(gated residual)是形如

h=αh+(1α)e\mathbf{h}' = \alpha \cdot \mathbf{h} + (1 - \alpha) \cdot \mathbf{e}

的结构,其中 α[0,1]\alpha \in [0,1] 是一个学习到的门,控制原始隐状态 h\mathbf{h} 与外部信号 e\mathbf{e} 各占多少比例。当 α1\alpha \approx 1 时,模型几乎忽略外部信号;当 α0\alpha \approx 0 时,外部信号占主导。ExpWeaver 使用了更精妙的范数保持插值变体,将在第 3 节详细推导。

1.6 GRPO:群体相对策略优化

GRPO(Shao et al., 2024)是一种不需要单独 Critic 网络的 LLM 强化学习算法。核心流程:

  1. 对同一个查询 xx,采样 G 条回答 {yi}i=1G\{y_i\}_{i=1}^G,计算各自奖励 {ri}\{r_i\}
  2. 计算群体归一化优势:A^i=(rirˉ)/(σr+ϵ)\hat{A}_i = (r_i - \bar{r}) / (\sigma_r + \epsilon)
  3. 用策略梯度强化高优势回答,同时加 KL 惩罚防止策略崩溃

这种”群体自比较”的设计消除了对独立价值网络的需求,使得 ExpWeaver 可以把 LLM 策略参数 θ\theta 和经验集成参数 ψexp\psi_\text{exp} 放入同一个优化循环中联合训练。

1.7 LoRA:低秩适配

LoRA(Hu et al., 2022)通过在预训练权重矩阵 W0Rm×nW_0 \in \mathbb{R}^{m \times n} 旁边并联一个低秩矩阵对 BAB \cdot ABRm×rB \in \mathbb{R}^{m \times r}ARr×nA \in \mathbb{R}^{r \times n}rmin(m,n)r \ll \min(m,n))来进行参数高效微调:

W=W0+BAW = W_0 + B A

ExpWeaver 对 Qwen2.5-3B-Instruct 的所有注意力层和前馈层应用 rank=32 的 LoRA,使可训练参数量大幅减少,让 4 张 A6000 GPU 上的训练成为可能。

2. 问题设定与动机

2.1 经验学习的数学形式化

D={(x,y)}\mathcal{D} = \{(x, y^*)\} 是一个(查询,参考答案)数据集。智能体 pθ(yx)p_\theta(y|x) 对查询 xx 生成输出 yy 和推理轨迹 zz,获得奖励 r(x,y,z)r(x,y,z)

整条轨迹 τ=(x,z,y,y,r)\tau = (x, z, y, y^*, r) 经过压缩函数 S\mathcal{S} 变为一条经验

e=S(x,y,z,r)(1)e = \mathcal{S}(x, y, z, r) \tag{1}

经验库 M\mathcal{M} 累积了所有历史经验。在生成时,从库中检索一个大小为 KK 的候选集:

Cϕ(x)=argmaxCE,C=KeCfϕ(x,e)(2)\mathcal{C}_\phi(x) = \arg\max_{\mathcal{C} \subseteq \mathcal{E}, |\mathcal{C}|=K} \sum_{e \in \mathcal{C}} f_\phi(x, e) \tag{2}

其中 fϕ(x,e)f_\phi(x, e) 是相关性打分函数,ϕ\phi 是其参数。增强后的生成策略为 ypθ(yx,Cϕ(x))y \sim p_\theta(y | x, \mathcal{C}_\phi(x))

2.2 两类已有方法及其局限

以检索为中心的方法(ReasoningBank、ExpeL、LLM-R):固定 θ\theta,只优化检索器 ϕ\phi

maxϕExD[Uθ(x,Cϕ(x))](3)\max_\phi \mathbb{E}_{x \sim \mathcal{D}}\left[ U_\theta(x, \mathcal{C}_\phi(x)) \right] \tag{3}

问题:检索器和生成器解耦,无法联合优化;改善检索精度不等于改善生成质量。

以 LLM 为中心的方法(IRCoT、Search-o1、Search-R1):把检索当成工具调用,直接优化 θ\theta

maxθExD[ECπθ(x)Eypθ(yx,C)[r(x,y)]](4)\max_\theta \mathbb{E}_{x \sim \mathcal{D}}\left[\mathbb{E}_{\mathcal{C} \sim \pi_\theta(\cdot|x)} \mathbb{E}_{y \sim p_\theta(y|x,\mathcal{C})}\left[r(x,y)\right]\right] \tag{4}

问题:检索仍依赖独立的 RAG 模块(外部搜索引擎或向量数据库),经验以文本形式存储,消耗大量 token;检索与生成仍在不同的表征空间中操作。

ExpWeaver 填补的空白: 把检索和生成统一到同一个表征空间(LLM 的隐空间),实现真正的端到端优化。

3. ExpWeaver 框架详解

ExpWeaver 由三个组件构成:经验库(Experience Bank)、潜空间检索增强生成(Latent RAG)、任务适配(Task Adaptation),由 GRPO 端到端训练。

flowchart TD
    subgraph EB["经验库 Experience Bank"]
        TRAJ["历史轨迹 τ = (x, z, y, y*, r)"]
        SUM["LLM 摘要器:s = S(x,y,z,r)"]
        ENC["隐向量编码:z = h_θ(s)\n(与生成器同一 LLM 的最后层隐状态)"]
        STORE["经验库 M\n存储 (x,z,y,y*,r,s,z),FAISS 索引"]
        TRAJ --> SUM --> ENC --> STORE
    end

    subgraph LRAG["潜空间检索增强生成 Latent RAG"]
        Q["查询 x"]
        DEC["自回归解码\n逐步产生 h₁, h₂, ..., h_T"]
        RET["TopK 潜空间检索\nC_t = TopK(sim(h_t, z_e), K)"]
        CA["交叉注意力聚合\ne_t = LN(CrossAttn(u, Z_t, Z_t))"]
        GATE["门控融合(范数保持插值)\nh'_t = a_t⊙h_t + √(1-a²_t)⊙(i_t⊙ẽ_t)"]
        Q --> DEC --> RET --> CA --> GATE --> DEC
    end

    subgraph TA["任务适配"]
        GEN["生成任务:y ~ p_θ(·|x,C) 基于 h'_T"]
        RANK["排序任务:score(y_j|x)=sim(h'_T, c_j)"]
        GATE --> GEN
        GATE --> RANK
    end

    STORE -.隐向量.-> RET
    GEN & RANK --> R["奖励 r(x,y)"]
    R --> RL["GRPO 联合训练\n同步更新 θ 和 ψ_exp"]
    RL -.参数更新.-> DEC
    RL -.更新嵌入.-> STORE

3.1 经验表示与经验库

每条经验 eMe \in \mathcal{M} 存储为六元组:

e=(x,  z,  y,  y,  r,  s,  z)(5)e = (x,\; z,\; y,\; y^*,\; r,\; s,\; \mathbf{z}) \tag{5}
字段含义
xx原始查询
zz推理轨迹(思维链/工具调用)
yy智能体的输出
yy^*参考答案
rr获得的奖励
ss文本摘要(由 LLM 生成)
zRd\mathbf{z} \in \mathbb{R}^d潜向量(稠密嵌入)

关键设计:同一 LLM 产生嵌入

z=hθ(s)(6)\mathbf{z} = \mathbf{h}_\theta(s) \tag{6}

其中 hθ(s)\mathbf{h}_\theta(s)pθp_\theta 处理摘要 ss最后一个 token 在最后一层的隐状态。这一设计有三层好处:

  1. 共享表示空间:解码时产生的 ht\mathbf{h}_t 和库中的 z\mathbf{z} 来自同一 LLM 的同一层,处于完全相同的 Rd\mathbb{R}^d 空间里,它们的余弦相似度有明确的语义意义——衡量当前推理状态与历史推理状态的结构相似性。

  2. 无需独立检索器:查询嵌入和键嵌入都用同一个 LLM 生成,不需要另外训练一个 BERT-style 编码器。

  3. 在策略对齐:随着 LoRA 微调不断更新 θ\theta,新生成的经验自然落在当前策略的嵌入空间里,老经验逐渐被 FIFO 策略淘汰,天然地维持了检索的在策略性。

存储与索引

所有嵌入做 L2L_2 归一化,相似度用余弦:

sim(z,z)=zzzz(7)\text{sim}(\mathbf{z}, \mathbf{z}') = \frac{\mathbf{z}^\top \mathbf{z}'}{\|\mathbf{z}\| \|\mathbf{z}'\|} \tag{7}

使用 FAISS(Johnson et al., 2019)建立内积索引,支持高效近似最近邻查找。经验库容量固定,满了则 FIFO 淘汰最老的记录。

3.2 潜空间检索增强生成(LRAG)

LRAG 模块在每个 token 的解码步骤上运行,分为三步:

步骤一:潜空间检索(Latent Retrieval)

在解码第 tt 步时,当前隐状态为 htRd\mathbf{h}_t \in \mathbb{R}^d。以 ht\mathbf{h}_t 为查询,在 M\mathcal{M} 中检索最相关的 KK 条经验:

Ct=TopKeM ⁣(sim(ht,  ze),  K)(8)\mathcal{C}_t = \text{TopK}_{e \in \mathcal{M}}\!\left(\text{sim}(\mathbf{h}_t,\; \mathbf{z}_e),\; K\right) \tag{8}

由于 ht\mathbf{h}_tze\mathbf{z}_e 同处一个空间,这个相似度衡量的是”当前的推理状态与历史哪条经验的推理状态最相似”。FAISS 查询只需几毫秒,不增加上下文 token。

步骤二:交叉注意力聚合(Cross-Attention Aggregation)

Ct={e1,,eK}\mathcal{C}_t = \{e_1, \ldots, e_K\},将其嵌入向量堆叠为矩阵:

Zt=[ze1;  ;  zeK]RK×d\mathbf{Z}_t = [\mathbf{z}_{e_1};\; \ldots;\; \mathbf{z}_{e_K}] \in \mathbb{R}^{K \times d}

用一个可学习的查询 token uRd\mathbf{u} \in \mathbb{R}^d 通过交叉注意力聚合所有经验:

et=LN ⁣(CrossAttn(u,  Zt,  Zt))(9)\mathbf{e}_t = \text{LN}\!\left(\text{CrossAttn}(\mathbf{u},\; \mathbf{Z}_t,\; \mathbf{Z}_t)\right) \tag{9}

LN 是层归一化,使聚合结果的幅度稳定。输出 etRd\mathbf{e}_t \in \mathbb{R}^d 是 K 条经验的”提炼信号”。

为什么用可学习的 u\mathbf{u} 而非 ht\mathbf{h}_t ht\mathbf{h}_t 已经用作检索查询(Eq. 8);再用它做聚合查询会让聚合权重过度依赖词法相似性,而非任务相关性。固定的 u\mathbf{u} 通过训练学会一种”任务无关的通用聚合策略”。

聚合结果做量级对齐:

e~t=ethtet\tilde{\mathbf{e}}_t = \mathbf{e}_t \cdot \frac{\|\mathbf{h}_t\|}{\|\mathbf{e}_t\|}

这一步确保 e~t\tilde{\mathbf{e}}_tht\mathbf{h}_t 的量级相同,为后面的门控融合做准备。

步骤三:门控融合——范数保持插值(Norm-Preserving Interpolation)

这是 ExpWeaver 最精妙的数学部分。朴素地做 ht+αe~t\mathbf{h}_t + \alpha \tilde{\mathbf{e}}_t 会破坏下游层期待的范数结构。ExpWeaver 用球面线性插值的思想来保持范数。

Step A — 计算保留门和输入门

rt=σ(Wrht),it=σ(Wiht)(10)\mathbf{r}_t = \sigma(\mathbf{W}_r \mathbf{h}_t), \quad \mathbf{i}_t = \sigma(\mathbf{W}_i \mathbf{h}_t) \tag{10}

Wr,WiRd×d\mathbf{W}_r, \mathbf{W}_i \in \mathbb{R}^{d \times d} 是可学习矩阵,σ\sigma 是 sigmoid。rt\mathbf{r}_t 控制”保留多少原始隐状态”,it\mathbf{i}_t 控制”注入多少经验信号”。

Step B — 计算混合系数 at\mathbf{a}_t

at=exp ⁣(αsoftplus(λ)rt)(11)\mathbf{a}_t = \exp\!\left(-\alpha \cdot \text{softplus}(-\boldsymbol{\lambda}) \odot \mathbf{r}_t\right) \tag{11}

其中 λRd\boldsymbol{\lambda} \in \mathbb{R}^d 是可学习向量,α>0\alpha > 0 是固定超参数。

为什么这么设计?我们逐项分析:

  • softplus(λ)\text{softplus}(-\boldsymbol{\lambda}) 保证指数内部的乘积为非负,即 at(0,1]d\mathbf{a}_t \in (0, 1]^d
  • rt\odot \mathbf{r}_t 使混合系数与保留门线性耦合:门越”开”(rt\mathbf{r}_t 越大),at\mathbf{a}_t 越接近 1(越保守,越少引入经验)
  • 外面的 exp\exp 保证 at\mathbf{a}_t 始终严格正,即原始隐状态永远有一定权重

Step C — 范数保持插值(核心公式)

ht=atht+1at2(ite~t)(12)\mathbf{h}'_t = \mathbf{a}_t \odot \mathbf{h}_t + \sqrt{1 - \mathbf{a}_t^2} \odot (\mathbf{i}_t \odot \tilde{\mathbf{e}}_t) \tag{12}

为什么范数能被保持? 对任意一个维度 jj

a=(at)j(0,1]a = (\mathbf{a}_t)_j \in (0,1]h=(ht)jh = (\mathbf{h}_t)_je=(e~t)je = (\tilde{\mathbf{e}}_t)_ji=(it)j[0,1]i = (\mathbf{i}_t)_j \in [0,1]

hj=ahj+1a2ijejh'_j = a \cdot h_j + \sqrt{1-a^2} \cdot i_j \cdot e_j

如果 ht=e~t\|\mathbf{h}_t\| = \|\tilde{\mathbf{e}}_t\|(由量级对齐保证),且 it=1\mathbf{i}_t = \mathbf{1}(输入门全开),则:

h2=a2h2+(1a2)e2=a2+(1a2)=1h2\|h'\|^2 = a^2 \|h\|^2 + (1-a^2)\|e\|^2 = a^2 + (1-a^2) = 1 \cdot \|h\|^2

h=h\|h'\| = \|h\|,范数完全保持。这就是公式 (12)(12)1a2\sqrt{1-a^2} 的几何意义:它是勾股定理的另一条边。

让我用图示直觉理解这个几何结构:

     在 R^d 的某一个维度上(以单位圆为例):

     h_t ────────────────────────────● 原始隐状态(范数为 ‖h_t‖)

               保留部分:a · h

     ẽ_t ─────────────────●          对齐后的经验信号(范数与 h_t 相同)

               注入部分:√(1-a²) · i · ẽ

     h'_t ──────────────────────────● 更新后隐状态

     勾股定理:a² + (√(1-a²))² = 1  → ‖h'_t‖ ≈ ‖h_t‖

初始化时 amin=0.98a_\text{min} = 0.98,意味着模型初始时 96%(0.9820.960.98^2 \approx 0.96)的权重给原始隐状态,只有 4% 留给经验信号。随着训练进行,模型在奖励信号引导下逐渐学会在有帮助的位置降低 at\mathbf{a}_t,开放更多的经验融合空间。

训练参数总结

经验集成参数为 ψexp={u,Wr,Wi,λ}\psi_\text{exp} = \{\mathbf{u}, \mathbf{W}_r, \mathbf{W}_i, \boldsymbol{\lambda}\},与 LLM 的 LoRA 参数 θ\theta 共同通过 GRPO 优化。

3.3 任务适配

ExpWeaver 对两类任务无需架构改动,直接适配:

生成任务(问答、推理、代码生成):用增强后的隐状态序列 {ht}\{\mathbf{h}'_t\} 直接做下一个 token 的预测,与标准自回归生成完全兼容。

排序任务(推荐):给定候选集 V={y1,,yM}\mathcal{V} = \{y_1, \ldots, y_M\},先把每个候选编码为 cj=hθ(yj)\mathbf{c}_j = \mathbf{h}_\theta(y_j),然后用最终增强隐状态打分:

score(yjx)=sim(hT,cj)\text{score}(y_j \mid x) = \text{sim}(\mathbf{h}'_T, \mathbf{c}_j)

排序结果 π\pi 按 score 降序排列。这个适配方式零参数、零修改,充分体现了潜空间统一的优势。

3.4 训练流程:Algorithm 1 逐行解析

算法 1:ExpWeaver 训练流程
──────────────────────────────────────────────────────────
输入:数据集 D, 策略 p_θ, 经验参数 ψ_exp
      组大小 G, 检索数 K, 学习率 η
      KL 系数 β, 冷启动阈值 M_min

初始化:M ← ∅(空经验库)

for 每个训练迭代:
  1. 从 D 采样小批量 B

  2. for 每条 (x, y*) ∈ B:
     a. for i = 1 to G:
        冷启动检查:
        if |M| < M_min:
          生成 (y_i, z_i) ~ p_θ(·|x)           # 不用检索,冷启动
        else:
          生成 (y_i, z_i) ~ p_θ(·|x, C)         # 使用潜空间检索 (Eq.8+12)
        计算奖励 r_i ← r(x, y_i)

     b. for i = 1 to G:
        摘要 s_i ← S(x, y_i, z_i, r_i)          # LLM 摘要器
        编码 z_i ← h_θ(s_i)                       # 潜向量 (Eq.6)
        更新库 M ← M ∪ {(x, z_i, y_i, y*, r_i, s_i, z_i)}

     c. 计算优势 Â_i ← (r_i - r̄) / (σ_r + ε)

  3. 计算 GRPO 损失 L(θ, ψ_exp)           # Eq. 13
  4. 参数更新 (θ, ψ_exp) ← (θ, ψ_exp) - η∇L

冷启动设计的意义:当经验库为空时,检索会返回随机噪声。冷启动设置 M<Mmin|M| < M_\text{min} 时跳过检索,让模型先独立学会任务,再逐步引入经验融合。这是一种课程学习(curriculum learning)策略。

GRPO 损失(Eq. 13)

L(θ,ψexp)=ExD ⁣[1Gi=1Gpθ(yix)pθold(yix)A^i]+βExD ⁣[1Gi=1GDKL(pθpref)](13)\mathcal{L}(\theta, \psi_\text{exp}) = -\mathbb{E}_{x \sim \mathcal{D}}\!\left[\frac{1}{G}\sum_{i=1}^G \frac{p_\theta(y_i \mid x)}{p_{\theta_\text{old}}(y_i \mid x)} \hat{A}_i\right] + \beta\,\mathbb{E}_{x \sim \mathcal{D}}\!\left[\frac{1}{G}\sum_{i=1}^G D_\text{KL}(p_\theta \| p_\text{ref})\right] \tag{13}

第一项是重要性采样修正的策略梯度,强化高优势回答;第二项是 KL 惩罚,防止策略偏离参考模型太远(避免奖励黑客)。

奖励设计

  • 生成任务:rgen(y,y)=F(y,y)r_\text{gen}(y, y^*) = \mathcal{F}(y, y^*)(问答用精确匹配,代码用 pass@1)
  • 排序任务:rrank(π,y)=1/ρπ(y)r_\text{rank}(\pi, y^*) = 1 / \rho_\pi(y^*)(目标项的排名越靠前奖励越高,排名第一得 1.0)

4. 实验设置

4.1 ExpBench 基准

论文构建了 ExpBench,覆盖 3 个场景、13 个任务:

graph TD
    ExpBench --> G["ExpBench-Generic(10 个任务)"]
    ExpBench --> S["ExpBench-Sci(1 个任务)"]
    ExpBench --> R["ExpBench-Rec(2 个任务)"]

    G --> QA["问答:ARC-C、CommonsenseQA\nGPQA、MMLU、OBQA"]
    G --> Reas["数学推理:GSM8K、GSM-Symbolic、MATH"]
    G --> Code["代码生成:HumanEval+、MBPP+"]

    S --> Chem["Chem-TDC(制药化学)\n需要专家级化学知识"]

    R --> Movie["Rec-Movie:MovieLens ml-1m"]
    R --> Music["Rec-Music:Ni et al. 2019a"]

为什么选这三类场景?

  • Generic:测试经验学习在各类通用任务上的泛化能力
  • Sci:测试向专业领域的跨域迁移(零样本 / 少样本)
  • Rec:测试在排序输出结构(而非文本生成)上的适配能力

4.2 基线方法分类

类别方法核心机制
通用推理CoT思维链提示,无经验
通用推理HRPO层次奖励偏好优化
通用推理R1DeepSeek 风格 RL 训练
检索中心ReasoningBank维护推理示例库,检索辅助推理
检索中心ExpeLKNN 提取任务特定经验
检索中心LLM-R成对排序损失训练检索器
LLM 中心IRCoT推理链内嵌入检索步骤
LLM 中心Search-o1智能体式搜索 + 推理
LLM 中心Search-R1RL 训练 LLM 使用搜索引擎

4.3 实现细节

超参数
基础模型Qwen2.5-3B-Instruct
LoRA rank32,scaling 64
检索数 K3
GRPO 组大小 G4
KL 系数 β0.005
LoRA 学习率5×10⁻⁶
ψ_exp 学习率1×10⁻⁴
最大序列长度1024 token
有效批大小32
a_min 初始化0.98
硬件4× NVIDIA A6000
索引方式FAISS 内积(L₂ 归一化)

5. 实验结果与分析

5.1 ExpBench-Generic:10 个通用任务上的 SOTA

下表复现论文 Table 2 的核心数据:

方法ARC-CCQAGPQAMMLUOBQAGSM8KGSM-SMATHHEval+MBPP+均值
CoT62.4456.4426.6758.2264.2271.1166.4453.1166.0072.8161.40
R178.4474.6721.6766.2271.3387.1179.7861.7873.0868.7573.10
Search-R180.4476.6723.3367.7873.3385.1177.5659.7871.7967.5073.27
ExpWeaver84.0082.0035.0068.0080.0089.7885.0065.3372.0078.0078.25

ExpWeaver 在 10 个任务中的 9 个上取得最佳分数(HumanEval+ 与 Search-R1 接近,差距在测量误差范围内)。

最值得关注的数字:GPQA +11.67(相对 R1)。GPQA 是博士级别的 Google-proof 科学问答,非常强调结构化推理能力。潜空间经验检索在这类”需要调用过去解题结构”的问题上优势最突出,说明隐空间经验捕捉的是”解题策略的相似”,而非文字表面的相似。

5.2 Token 效率:为什么潜空间比文本 RAG 高效

下面根据论文 Figure 2 重现 token 消耗对比:

各任务平均 token 消耗(大约值,来自 Figure 2):

任务类别   | R1  | Search-R1 | HRPO | ExpWeaver
-----------+-----+-----------+------+----------
问答(QA) | 713 | 1210      | 374  | 412
推理       | 698 | 1490      | 351  | 393
代码       | 632 | 428       | 267  | 241
化学       | 676 | 2005      | 272  | 303
推荐       | 519 | 1862      | 518  | 471

结论:
 • Search-R1 比 R1 消耗 1.5-2× 更多 token(文本拼接代价)
 • ExpWeaver ≈ HRPO(无检索的 RL 基线),经验融合不增加 token

关键洞察:ExpWeaver 的经验通过潜空间注入隐状态,从不出现在 token 序列里。因此它的 token 消耗与”无检索”基线相当,同时效果远超文本 RAG 方法。这才是真正的效率优势——不是在准确率和效率之间取折中,而是两者兼得。

5.3 跨域泛化(ExpBench-Sci):最令人信服的结果

论文在 Chem-TDC(制药化学问答)上做了三设定的跨域实验:

设定含义R1Search-R1ExpWeaver
ZeroShot在 Generic 数据训练,直接评测 Chem50.4454.2062.44
FewShot经验库来自 Generic,模型在 Chem 微调58.6763.78
InDomain在 Chem 上完整训练和评测69.5869.58

零样本跨域(ZeroShot) 是最有说服力的行:模型从未见过化学题,但 ExpWeaver 比 Search-R1 高出 8.24 个百分点。作者的解释:潜空间经验编码捕捉的是元层面的解题策略(如何分解问题、什么时候要谨慎、如何推断不确定条件),这些策略在跨领域迁移时保持有效,而文本 RAG 检索的”化学词汇相似性”在零样本时几乎无效。

更有意思的是:ExpWeaver-FewShot(63.78)接近 R1-InDomain(69.58),只差约 5.8 个百分点——而 FewShot 只用了 Generic 数据训练,仅在经验库里放了少量化学经验。这说明潜空间经验的迁移性远超文本经验。

5.4 推荐排序(ExpBench-Rec)

方法Rec-Movie NDCG@10Rec-Movie MRRRec-Music NDCG@10Rec-Music MRR均值 NDCG均值 MRR
R121.5016.8024.5019.8023.0018.30
IRanker42.3234.6933.4729.1837.9031.94
Search-R126.3419.5530.7225.3328.5322.44
ExpWeaver49.3739.5539.4233.2144.4036.38

ExpWeaver 在排序任务上超越专门为排序设计的 IRanker(+6.5 NDCG@10),体现了统一潜空间的强大适配性——同一套经验集成机制,无需任何修改,直接迁移到排序任务。

6. 消融实验分析

6.1 检索数 K 的影响

论文在 5 个任务类别上对 K{1,3,5,8}K \in \{1, 3, 5, 8\} 做了消融(Figure 4a 雷达图):

K 值表现原因解释
K=1明显下降单条经验不足以提供多样参考,一旦检索偏差影响巨大
K=3最佳覆盖多角度,信噪比高
K=5与 K=3 几乎相同多出的 2 条经验贡献边际收益
K=8略下降低相关经验引入噪声,交叉注意力无法完全过滤

结论:K=3K=3 是最佳检索数,体现了”质量优先于数量”的原则。

6.2 聚合机制对比

变体机制相对 ExpWeaver
Mean PoolingK 条经验直接取平均最大下降:无法按相关性加权
Weighted Mean用检索相似度加权平均有提升但不够:权重是静态的,不随解码状态变化
Qformer多查询 token 架构,更多参数有竞争力但不超过 ExpWeaver:过参数化收益递减
ExpWeaver(单 token 交叉注意力)单个可学习查询 token + 交叉注意力最佳

单个查询 token 的设计是关键:它足够灵活(通过交叉注意力动态加权),又足够简洁(不会过拟合),最终在所有任务类别上都取得最好结果。

6.3 混合系数初始化 amina_\text{min}

amina_\text{min}表现原因
0.95下降明显训练初期经验注入过多,破坏预训练表示
0.97有所下降经验库还未充分积累时过早开放融合
0.98最优先保守保护原始推理,再渐进地学习经验融合
0.99略有下降融合空间太窄,即使经验库充分了也学不了足够的融合

amin=0.98a_\text{min} = 0.98 相当于一种课程学习:初始阶段模型主要靠自身推理,后期随着经验库积累和参数更新,逐步加重经验的权重。

7. 局限性与适用范围

7.1 模型规模限制

所有实验只用了 Qwen2.5-3B-Instruct。3B 参数模型的隐维度 d2048d \approx 2048,经验嵌入量级尚可接受。但 70B+ 模型的 d8192d \approx 8192,嵌入占用 4 倍空间,FAISS 索引规模和每步查询代价随之上升。论文没有提供规模扩展(scaling)的分析。

7.2 FIFO 淘汰策略的隐患

当经验库满时,最老的经验被无条件淘汰,无论其奖励高低。这意味着一条高质量经验(奖励=1.0)如果早于大量低质量经验(奖励=0)生成,它会被先淘汰,而低质量经验却留存下来,持续”污染”检索结果。质量感知的淘汰策略(如优先保留高奖励经验)会更合理。

7.3 嵌入漂移问题

经验的嵌入 z=hθ(s)\mathbf{z} = \mathbf{h}_\theta(s) 在存入时是用当时的 θ\theta 计算的。随着 LoRA 微调 θ\theta 更新,同样的摘要 ss 会产生不同的嵌入。但库中存储的 z\mathbf{z} 不会随之更新——这导致检索时的查询(来自新 θ\theta)和库中的键(来自旧 θ\theta)逐渐不对齐。FIFO 淘汰部分缓解了这个问题,但并不能从根本上解决。

7.4 任务覆盖的局限

13 个评测任务主要是学术 QA 基准(ARC-C、GSM8K 等),缺乏真实智能体场景的测试,如:

  • WebArena(需要与网页环境多步交互)
  • SWE-bench(软件工程任务,需要数十步工具调用)
  • 医疗/法律等高风险决策场景(错误经验代价极高)

在这些复杂场景下,经验学习的价值可能更大,也可能带来新的风险(被过去的错误经验误导)。

8. 批判性分析:不足与可改进之处

8.1 不好的地方——方法和评估的弱点

(a) 单模型评估,无法支撑泛化性声称。 所有实验只在一个模型(Qwen2.5-3B-Instruct)上进行。潜空间 RAG 的有效性很可能依赖于特定模型家族的表示特性。如果换成 LLaMA-3-8B 或 Mistral,表示空间的性质不同,经验嵌入的质量可能大幅变化。目前的评估无法区分”方法本身有效”和”Qwen 2.5 的隐状态恰好有利于这种检索”。

(b) 无方差报告,单次实验结论不可靠。 RL 训练的随机性很大——不同随机种子的 GRPO 训练在推理 benchmark 上可能带来 ±2-3% 的波动。论文仅报告单次运行结果(这是当前 LLM 论文的常见问题)。GPQA 上 35.00 vs. 23.33 的大差距不太可能完全是随机种子带来的,但在均值差距只有 4.98(78.25 vs. 73.27)的情况下,多次重复实验的方差分析是必需的。

(c) FIFO 淘汰策略未做消融。 论文将 FIFO 作为经验库的默认淘汰策略,但这是一个重要的设计选择,且存在明显缺陷(低质量经验若早于高质量经验生成,高质量经验会被先淘汰)。论文没有比较质量感知淘汰(按奖励加权的 LRU)、随机淘汰等替代方案,不清楚 FIFO 是否是最优选择。

(d) 推荐评测场景过于单一。 两个推荐数据集(MovieLens-1m、音乐数据集)都是序列化交互结构,用 NDCG@10 和 MRR 评估。论文对”排序任务”的定义过窄——文档检索、代码补全候选排序、对话回复选择都是排序任务,但没有测试。

(e) 摘要质量是隐性依赖。 经验嵌入的质量取决于 LLM 生成的摘要 s=S(x,y,z,r)s = \mathcal{S}(x,y,z,r)。训练初期模型能力弱,摘要质量可能很差,导致早期经验的嵌入质量低,影响后续检索。论文没有分析摘要质量对经验检索准确率的影响,也没有报告实际检索精度(即检索到的经验是否真的与当前查询最相关)。

8.2 作者淡化或回避的局限

(a) 嵌入漂移问题被”在策略对齐”掩盖。 论文第 3 节论证”使用同一 LLM 产生嵌入能保证在策略对齐”,这个论点在逻辑上有漏洞:存储的嵌入 z\mathbf{z} 是用存入时的 θold\theta_\text{old} 计算的,而检索时的查询 ht\mathbf{h}_t 是用当前 θ\theta 计算的。随着训练进行,这两者之间的分布差距越来越大。FIFO 淘汰能部分缓解(老经验被淘汰),但训练周期长时,“较新但仍旧”的经验可能同样存在漂移问题,论文没有量化这个漂移的程度。

(b) FAISS 每步查询的延迟开销未报告。 论文说 ExpWeaver 的 token 效率与无检索基线相当,但 token 效率只衡量上下文窗口 token,不包括每步解码都需要执行一次 FAISS 近似最近邻搜索的时间开销。以 500 步解码为例,每步一次 FAISS 查询,在一个有 10 万条经验的库中,这个时间不可忽略。实际服务场景的端到端延迟才是真正值得比较的指标,但论文回避了这个测量。

(c) 摘要器 prompt 未公开。 摘要质量对整个框架至关重要,但论文正文中没有提供用于生成 s=S(x,y,z,r)s = \mathcal{S}(x,y,z,r) 的具体 prompt。如果摘要 prompt 经过了大量调优,那么复现时若使用不同 prompt 可能得到显著不同的结果。可复现性存在风险。

8.3 具体可改进的方向

(1) 质量感知淘汰策略。 用带优先级的淘汰替代 FIFO:维护以 (ri,access_time)(r_i, \text{access\_time}) 为键的优先队列,在库满时优先淘汰低奖励且长时间未被检索的经验。直觉上,一条被重复检索的高奖励经验比一条从未被检索的低奖励经验更值得保留。

(2) 周期性嵌入刷新。NN 步训练后,从经验库中随机采样若干条记录,用更新后的 θ\theta 重新计算嵌入,替换库中的旧嵌入。这能直接对抗嵌入漂移,代价是少量额外的 LLM 前向传播。

(3) 分层经验检索。 把每步解码都做检索改为只在推理链的关键节点(如思维链的步骤边界、代码生成的函数边界)做检索,其余步骤复用上一次的检索结果。预计能将 FAISS 查询次数减少 5-10 倍,同时保留大部分效果。

(4) 多规模验证实验。 在 Qwen2.5-7B-Instruct 和 Qwen2.5-14B-Instruct 上跑同样的设置,验证隐空间 RAG 的增益是否随模型规模保持稳定甚至增强,还是在更大模型上边际效益递减。这是将论文从”有趣的初步工作”提升为”有充分支撑的方法贡献”的关键实验。

(5) 结合记忆质量的 RL 奖励重塑。 在 GRPO 奖励中引入一个”检索质量”辅助项:如果检索到的经验经评估是高质量的(相关、多样),则给额外正向奖励;如果检索到的是重复或低相关经验,则给小的负向奖励。这能主动引导模型学习更好的”什么时候依赖经验、什么时候自己推理”的决策。

(6) 长时域智能体任务测试。 在 WebArena 或 SWE-bench 上测试 ExpWeaver,这些场景中一个任务需要数十步工具调用,“曾经犯过类似错误”的经验价值最高。如果 ExpWeaver 在这类场景下同样有效,论文的实际影响力将大幅提升。

9. 可复现性说明

要素状态
代码已开源:https://github.com/ulab-uiuc/ExpWeaver
基础模型Qwen2.5-3B-Instruct(HuggingFace 公开可用)
训练库Unsloth(公开)、TRL(公开)
向量索引FAISS(Meta 开源)
评测数据集ARC-C、CommonsenseQA、GSM8K、MATH、HumanEval+ 等均公开
硬件需求4× NVIDIA A6000(48GB 显存);有梯度检查点,可减少显存占用

复现关键参数清单:

  • LoRA rank=32, scaling=64,覆盖全部注意力和 FFN 层
  • 检索数 K=3,混合系数初始化 amin=0.98a_\text{min}=0.98
  • GRPO 组大小 G=4,KL 系数 β=0.005
  • LoRA 学习率 5×10⁻⁶,ψexp\psi_\text{exp} 学习率 1×10⁻⁴
  • Cosine 学习率衰减 + 10% warmup
  • 每个 ExpBench 场景(Generic/Sci/Rec)训练独立模型

潜在复现风险:

  • 摘要生成 prompt 需从代码库获取,论文正文未提供;不同 prompt 可能显著影响嵌入质量
  • 冷启动阈值 MminM_\text{min} 的具体值需查阅附录;过小会引入噪声,过大会延迟经验集成
  • FAISS 索引在切换场景时需重置,否则跨域嵌入会混入检索结果干扰准确性
  • 训练时应开启梯度检查点(gradient checkpointing),否则在 A6000(48GB)上以 batch_size=8 和有效批 32 训练会 OOM
  • 论文使用 BF16 精度,建议保持一致;切换为 FP16 在某些操作上可能引入数值不稳定

10. 更广泛的背景与相关工作联系

10.1 情节式记忆(Episodic Memory)与参数记忆(Parametric Memory)的区别

在 LLM 研究中,“记忆”这个词至少有两层截然不同的含义:

参数记忆(Parametric Memory):指 LLM 通过预训练将世界知识编码进参数权重的能力。当你问模型”巴黎是哪个国家的首都”,它的回答来自参数记忆,不需要检索。参数记忆的特点是隐式存储、无法直接编辑、但推理时零额外成本。

情节式记忆(Episodic Memory):指存储具体”经历”的能力——“上次做这类题我用了什么方法”。与参数记忆不同,情节式记忆是显式存储在外部记忆库中,可以被检索、更新、删除。ExpWeaver 的经验库本质上就是一个情节式记忆系统。

ExpWeaver 的创新之处在于:它把情节式记忆的”显式存储”与参数记忆的”隐式融合”结合起来——经验虽然存在外部库中(显式),但在生成时通过隐状态融合(隐式)注入,而非拼接到上下文里(显式)。这种融合方式让经验”像参数一样”影响生成,同时又保留了情节式记忆可查阅、可更新的灵活性。

10.2 冷启动策略的课程学习视角

ExpWeaver 的冷启动机制(M<Mmin|\mathcal{M}| < M_\text{min} 时跳过检索)实际上是一种隐式的课程学习(Curriculum Learning)

训练阶段 1(冷启动):
  经验库为空 → 跳过检索 → 模型独立学习任务
  效果:建立基本任务能力,积累初始高质量经验

训练阶段 2(预热经验):
  经验库有基本积累 → 开始检索,但 a_min=0.98 保守融合
  效果:模型逐渐学习"何时依赖经验有用"

训练阶段 3(成熟融合):
  经验库充实,模型能力提升 → a_t 在关键位置降低,经验影响增大
  效果:经验真正指导推理,质量螺旋上升

没有冷启动的话,训练之初模型会从空库中检索到随机噪声,学会”忽略检索信号”,陷入永远不用经验的局部最优。冷启动通过人为引入课程保护了模型避免这一陷阱。

10.3 范数保持插值的深层原因

为什么不能简单地做 ht=ht+αe~t\mathbf{h}'_t = \mathbf{h}_t + \alpha \tilde{\mathbf{e}}_t?让我从 Transformer 架构的层面解释。

现代 Transformer(包括 Qwen2.5)在每个子层(自注意力、前馈网络)之后都有 RMSNorm(或 LayerNorm):

RMSNorm(x)=γxRMS(x)+ϵ,RMS(x)=1djxj2\text{RMSNorm}(\mathbf{x}) = \gamma \cdot \frac{\mathbf{x}}{\text{RMS}(\mathbf{x}) + \epsilon}, \quad \text{RMS}(\mathbf{x}) = \sqrt{\frac{1}{d}\sum_j x_j^2}

RMSNorm 的行为完全依赖于输入的范数(RMS(x)\text{RMS}(\mathbf{x}))。如果插值后 ht\mathbf{h}'_t 的范数与预训练/微调期间见到的范数分布不同,RMSNorm 的输出会落在它”不熟悉”的区间,导致下游注意力权重和激活值异常,进而产生训练不稳定和性能下降。

通过范数保持插值(Eq. 12):htht\|\mathbf{h}'_t\| \approx \|\mathbf{h}_t\|,确保了 ht\mathbf{h}'_t 与 LoRA 微调中见到的 ht\mathbf{h}_t 范数分布一致,所有后续的 RMSNorm 操作都在其正常工作区间内。这是 ExpWeaver 能够在 LoRA 微调框架下稳定训练的核心保证之一。

10.4 与 DRL 情节式控制(Neural Episodic Control)的对比

2017 年 DeepMind 的 Neural Episodic Control(NEC) 也是用情节式记忆增强强化学习智能体。两者的对比揭示了 ExpWeaver 的适用场景:

维度NEC(DRL 经典方法)ExpWeaver(LLM 经验学习)
记忆单元(状态, 动作, Q 值)(查询, 推理轨迹, 奖励)
检索查询当前环境观测嵌入当前解码隐状态 h_t
检索粒度每步决策一次每生成一个 token 一次
集成方式Q 值线性外插门控隐状态融合
训练信号Q-learning/TDGRPO 策略梯度
任务空间固定 MDP(Atari 游戏)开放式自然语言任务

ExpWeaver 在概念上继承了 NEC 的”用情节式检索指导当前决策”的核心思想,但将其适配到了更复杂的语言生成场景中,且通过潜空间统一解决了文本 RAG 中检索与生成解耦的问题。

10.5 隐空间经验的可解释性问题

一个值得思考的开放性问题是:潜空间中的经验嵌入 z=hθ(s)\mathbf{z} = \mathbf{h}_\theta(s) 到底”记住了什么”?

从论文的跨域泛化结果(零样本化学测试)来推断,这些嵌入捕捉的不是”化学知识”(因为模型从未见过化学题),而是元认知策略(meta-cognitive strategies)——如何分解问题、什么时候要验证答案、如何处理不确定性等。

这个解读与潜空间嵌入的性质一致:最后一层隐状态捕捉的是模型对”当前生成任务的抽象理解”,而非具体的领域知识。领域知识存在参数里,任务策略则通过隐状态动态表达。ExpWeaver 利用的正是这种”策略性”的潜空间特性,这也解释了为什么它的跨域迁移比文本 RAG 更有效——文本 RAG 检索的是词法相似的文档(领域知识),而 ExpWeaver 检索的是推理策略相似的经验(元认知知识)。

10.6 实践中的工程注意事项

对于想在实际项目中应用 ExpWeaver 思路的读者,有几点工程层面的建议:

经验库规模的权衡

  • 库越大,可检索的多样性越高,但 FAISS 查询时间增加
  • 推荐起步规模:每任务类型 1K-5K 条经验,根据任务分布分场景建库
  • 每个场景用独立的 FAISS 索引,避免跨域干扰

嵌入维度与 LoRA 的配合

  • 经验嵌入维度 = 模型隐维度 dd(Qwen2.5-3B 为 2048)
  • LoRA 不改变隐维度,经验嵌入维度全程保持一致
  • 但 LoRA 会改变嵌入的方向分布,需周期性刷新旧嵌入

奖励函数的设计原则

  • 奖励函数的稀疏性会直接影响 GRPO 群体采样的效率
  • 对于代码任务,pass@1 是自然的密集奖励信号
  • 对于开放式生成,需要设计专用奖励模型(如 ArmoRM)或使用 LLM 作为裁判

冷启动阈值的调节

  • MminM_\text{min} 取决于任务复杂度和 GRPO 组大小 G
  • 粗略经验:Mmin5×G×(expected steps per episode)M_\text{min} \approx 5 \times G \times \text{(expected steps per episode)}
  • 过小则嘈杂检索干扰早期训练;过大则错过经验库积累的最佳时机

11. 结语

ExpWeaver 提出了一个优雅且实用的框架:把 LLM 智能体的经验学习从文本空间搬到隐状态空间。核心技术贡献——同一 LLM 产生嵌入(消除独立检索器)、每步解码潜空间检索(零 token 开销)、交叉注意力聚合(动态加权 K 条经验)、范数保持门控插值(稳定融合)、GRPO 端到端训练——各自有清晰的设计动机,合在一起构成一个自洽且可端到端优化的系统。

实验结果令人信服:12/13 任务 SOTA、文本 RAG 1.5-2 倍的 token 效率、零样本跨域提升 8 个百分点。对于从事 LLM 智能体开发的实践者,ExpWeaver 传递了一个清晰的工程建议:对于需要重复执行同类任务的智能体,在隐状态空间学习经验的效率和效果双优于文本 RAG,且 ExpWeaver 提供了一套完整的从零训练框架。

当前版本的主要缺口——单模型评估、无方差报告、FIFO 淘汰未做消融、长时域任务缺失——都是可以通过补充实验解决的,不影响核心洞察的价值。

从更宏观的视角来看,ExpWeaver 指向了一个有趣的未来方向:智能体的”记忆”与”参数”之间的边界正在模糊。当经验由同一 LLM 编码、通过门控融入解码过程,情节式记忆就不再是外挂模块,而是成为推理计算本身的一部分。这或许是走向真正会”学习如何学习”的智能系统的重要一步。

12. 深入分析:为什么 GPQA 的提升最显著

Table 2 中最引人注目的单项结果是 GPQA:ExpWeaver 得到 35.00%,而 Search-R1 仅为 23.33%,R1 为 21.67%。超过 11 个百分点的绝对提升,对于一个专门测试研究生级科学推理的 benchmark 来说非常罕见,值得深入分析。

GPQA 测的是什么。 GPQA(Rein et al., 2024)中的题目由领域专家精心设计,故意使其不可用 Google 搜索解决,需要真正的多步推理。题目通常跨越多个子领域,答案来自对多个知识点的组合推断,而非单一事实的记忆。

文本检索为什么在 GPQA 上失效。 Search-R1 通过文本嵌入的语义相似度检索历史经验。但对于 GPQA,两道表面相似(同是量子化学问题)的题目可能需要完全不同的推理策略;两道表面不同(一道量子力学、一道有机化学)的题目可能共享相同的约束传播推理结构。文本检索容易被表面词汇相似性误导,检索到”词法相近但策略无关”的经验,这些经验拼入上下文后反而会干扰推理。

潜空间检索为什么有效。 ExpWeaver 的检索查询是当前解码步骤的隐状态 ht\mathbf{h}_t。当模型已经生成了 GPQA 题目的一半推理轨迹时,ht\mathbf{h}_t 编码了当前推理策略的抽象结构——已经做了哪些推断、激活了哪些概念、还缺少什么步骤。两道词汇不同但需要相同推理结构的题目,在推理过程中的隐状态会非常相似,即使表面文字完全无关。

这正是隐空间检索的核心优势:对于结构性推理任务,隐状态空间中的相似性比文本表面的相似性更准确地捕捉了”解题策略的相似”。GPQA 的结果是对这个假说最有力的实证支持。

13. 关键符号与公式速查表

符号含义
xx查询输入
yy生成输出
zz推理轨迹
yy^*参考答案
rr环境奖励
ss经验文本摘要
zRd\mathbf{z} \in \mathbb{R}^d潜向量嵌入
e=(x,z,y,y,r,s,z)e = (x,z,y,y^*,r,s,\mathbf{z})完整经验元组
M\mathcal{M}经验库
KK检索经验数
ht\mathbf{h}_ttt 步解码隐状态
u\mathbf{u}可学习交叉注意力查询 token
Zt\mathbf{Z}_t检索到的 K 个经验嵌入矩阵
et\mathbf{e}_t聚合后的经验信号
e~t\tilde{\mathbf{e}}_t量级对齐后的经验信号
rt,it\mathbf{r}_t, \mathbf{i}_t保留门和输入门
at\mathbf{a}_t混合系数向量
ht\mathbf{h}'_t融合经验后的增强隐状态
GGGRPO 采样组大小
A^i\hat{A}_i群体归一化优势
ψexp={u,Wr,Wi,λ}\psi_\text{exp} = \{\mathbf{u}, \mathbf{W}_r, \mathbf{W}_i, \boldsymbol{\lambda}\}经验集成可训练参数

ExpWeaver 的五个核心公式:

经验嵌入:

z=hθ(s)(6)\mathbf{z} = \mathbf{h}_\theta(s) \tag{6}

潜空间检索:

Ct=TopKeM ⁣(sim(ht,ze),K)(8)\mathcal{C}_t = \text{TopK}_{e \in \mathcal{M}}\!\left(\text{sim}(\mathbf{h}_t, \mathbf{z}_e), K\right) \tag{8}

交叉注意力聚合:

et=LN ⁣(CrossAttn(u,Zt,Zt))(9)\mathbf{e}_t = \text{LN}\!\left(\text{CrossAttn}(\mathbf{u}, \mathbf{Z}_t, \mathbf{Z}_t)\right) \tag{9}

混合系数:

at=exp ⁣(αsoftplus(λ)rt)(11)\mathbf{a}_t = \exp\!\left(-\alpha \cdot \text{softplus}(-\boldsymbol{\lambda}) \odot \mathbf{r}_t\right) \tag{11}

范数保持融合:

ht=atht+1at2(ite~t)(12)\mathbf{h}'_t = \mathbf{a}_t \odot \mathbf{h}_t + \sqrt{1 - \mathbf{a}_t^2} \odot (\mathbf{i}_t \odot \tilde{\mathbf{e}}_t) \tag{12}

这五个公式构成了 ExpWeaver 最核心的数学框架:Eq. 6 定义了经验如何被编码进潜空间;Eq. 8 定义了如何在生成时检索相关经验;Eq. 9 定义了如何聚合多条经验为单一信号;Eq. 11 定义了混合权重的计算方式;Eq. 12 是整个系统的最终集成,以范数保持的方式将经验信号注入隐状态,使整个流程既可微(可被梯度反传),又数值稳定(不破坏下游 Norm 层的工作区间)。理解这五个公式,就理解了 ExpWeaver 的全部设计逻辑。


笔记到此结束。论文代码已开源(https://github.com/ulab-uiuc/ExpWeaver),感兴趣的读者可以直接在 4 张 A6000 上复现 ExpBench-Generic 的结果。