思考预算锁死之后,单 Agent 为什么打过多 Agent —— 阅读笔记
笔记日期: 2026-05-18 作者: Zhongzhu Zhou 论文: Single-Agent LLMs Outperform Multi-Agent Systems on Multi-Hop Reasoning Under Equal Thinking Token Budgets 作者团队: Dat Tran, Douwe Kiela(Stanford University) arXiv: 2604.02460v2,2026-04-11 修订 状态: Preprint,under review。
简短结论
这篇论文要做的事情其实很小、也很狠:把”思考 token 预算”这件事单独拎出来,固定住,然后让单 Agent(SAS)与各种多 Agent 架构(MAS)在同样的预算下面对面打。结论是——一旦预算被卡死,绝大多数被吹得很神的多 Agent 系统就不再有架构上的优势了。
我之前在生产环境里写过几版多 Agent 系统:planner+worker+aggregator、debate、role-specialization、ensemble。每次上线时都觉得”看,多 Agent 比单 Agent 好一截”;但一回到内部对比,只要把单 Agent 的 thinking budget 调大、把 SAS 与 MAS 各自的总 token 数对齐,那个”一截”就消失了,有时甚至反转。这篇 Stanford 的工作把这个直觉做成了三件结合得很好的事:
- 理论侧:用一个非常干净的 Data Processing Inequality(DPI)论证,证明在思考 token 预算固定、且单 Agent 完美利用上下文的情况下,SAS 在贝叶斯意义上不会比 MAS 差。
- 实验侧:在 Qwen3-30B-A3B、DeepSeek-R1-Distill-Llama-70B、Gemini-2.5-Flash、Gemini-2.5-Pro 四个模型 × FRAMES 与 MuSiQue(4-hop)两个数据集 × Sequential / Subtask-parallel / Parallel-roles / Debate / Ensemble 五种 MAS × 100–10000 六档预算的笛卡尔积里,SAS 几乎在每个非平凡预算下都与最强 MAS 持平或更好。
- 方法学侧:揭示了一个我们行业里其实很多人都偷偷怀疑、但没人正式写出来的 bug——Gemini 2.5 API 的
thinking_budget是”上限”不是”实际”,单 Agent 模式下 Gemini 会主动少花预算,多 Agent 模式因为多次调用累计反而更接近预算。也就是说,“MAS 比 SAS 强”在 Gemini 上很大程度是 API 计量伪影。
更让我心服的是,论文不只是说”SAS 通杀”,它还给出了 MAS 真正有用的边界条件:通过显式制造上下文退化(删除、掩码、替换、注入干扰句),论文展示了当单 Agent 对上下文的有效利用变差到某个程度时,结构化的 MAS(特别是 Sequential)会反超。这个反超是 DPI 论证里可预测的,也是 §3.1 中”degraded context”那段的实证证据。所以这篇论文最终留给我的不是”MAS 没用”,而是**“MAS 是 SAS 上下文利用受损时的一种补救手段,不是普适架构”**。这种边界化的结论比”通杀”更有工程价值。
下面我把要点拆开记,重点放在前置知识(让没看过排队论 + 信息论交叉的人也能读懂)、DPI 论证、实验设计、五种 MAS 的对比,以及我自己对这套结论在实际生产中怎么用的判断。
1. 前置知识
这一节面向已经写过 LLM 应用、但没系统看过 SAS vs MAS 这条争论线的读者。如果你对 DPI、思考 token、FRAMES/MuSiQue、debate/ensemble 这些都熟,可以跳过。
1.1 “思考 token”到底是什么
近年的推理增强模型(OpenAI o 系列、Gemini 2.5 Flash/Pro、DeepSeek-R1、Qwen3 启用 thinking 模式)会产生两段输出:一段私有”思考链”或”scratchpad”,再一段对外答案。思考 token 预算就是限定私有链长度的参数。具体到几个 API:
- Gemini 2.5:
thinking_budget字段。 - OpenAI o 系列:
reasoning_effort离散档(low/medium/high)。 - DeepSeek-R1 / Qwen3:模型内部直接生成
<think>...</think>块,可在停止条件或后处理里截断。
论文把预算 定义为中间推理总 token 数,不计入 prompt 与最终答案。比较 SAS 与一个 -step 的 Sequential MAS 时,每个 worker 给 token,planner 与 aggregator 在预算上保持最小(“近预算中性”)。这是论文成立的关键约定——如果 debate 让两个 debater 各拿满 再加 aggregator,就根本不在公平比较了。
1.2 一段话讲完 DPI
设真值为随机变量 ,完整上下文为 ,多 Agent 通信函数 产出消息 。那么 构成 Markov 链( 只通过 与 相关),DPI 给出
等价地 :观察 之后对 的剩余不确定性,不会比观察 更小。换成预测错误概率,可推出
即”看到完整 的预测器”的最小可达错误率,不会大于”只看到 “的预测器。这就是论文 §3 最核心的一行不等式。
这条结论不意味着 SAS 一定严格优于 MAS:如果 是充分统计量,相等。也不意味着 SAS 真能跑到 :实际 LLM 离贝叶斯最优很远,它有 lost-in-the-middle、attention dilution、context rot 等各种毛病。论文的贡献是把这些边界写明,然后通过实验设计去把”完美上下文利用”这个假设的违反情况摆出来。
1.3 FRAMES 与 MuSiQue 4-hop
两个都是多跳事实问答:
- FRAMES(Krishna 等 2025):显式 fact lookup,答案是单一正解。“写了第几位歌手的安可曲的人是谁”这种结构。
- MuSiQue(Trivedi 等 2022)筛 4-hop:由 4 个单跳问题以桥实体串接,” 的 的 的 的 是什么”。当年的 MuSiQue 论文就说, 跳时模型很脆。4-hop 在今天依然难,连 Gemini-2.5-Pro 也只到 0.45 左右。
评估用 LLM-as-judge:另一个 Gemini-2.5-Flash 给 (question, gold, prediction) 打 yes/no。所有架构共用同一个 judge prompt,故架构间的差异不会被 judge 偏差混淆。
1.4 论文里的五种 MAS
论文把”多 Agent”具象化为五种典型架构,全在同一个总预算 下跑:
| 架构 | 分解方式 | 通信结构 |
|---|---|---|
| Sequential | planner → 顺序 worker → aggregator | 线性链,每步看到前置输出 |
| Subtask-parallel | planner → 独立 worker → aggregator | 星型,worker 间互不可见 |
| Parallel-roles | Solver/Fact Extractor/Skeptic/Second Solver → aggregator | 星型+角色专门化 |
| Debate | 两个 debater → 互相 critique → judge | 双向辩论 + 仲裁 |
| Ensemble | 多个 0.7 温度候选 → judge | 候选选择 |
Sequential 被指定为”与 SAS 最对应”的 baseline,因为两者都是对同一条 evolving trajectory 做串行推理,唯一区别在于”中间状态是隐式留在单条链里”(SAS)还是”显式作为消息在 worker 间传递”(Sequential MAS)。
1.5 SAS-L 是什么
为了让 Gemini 别在 SAS 模式下偷懒,作者加了一段 user prompt 前缀,让模型先:
- 识别 question 里的歧义,
- 给出至少两种解释,
- 评估并选择最可能的一种,
- 再回答。
预算 不变,只是 prompt 多了一段。这是个纯粹用来对抗 Gemini API 计量伪影的工具。对 Qwen3 和 DeepSeek-R1 影响不大,因为它们的 <think> 块本来就能跑满预算。
1.6 为什么”思考 token 预算”是合适的对比轴
读这篇论文前我也一度怀疑:用 thinking token 而不是 wall-clock latency 或总 API token 当对比维度,是不是为了”造出 SAS 占优的结论”?想清楚后我接受这个选择,理由如下:
- Thinking token 是真正的”推理资源”。Prompt token、答案 token 是输入/输出的固定开销,不是模型”思考”的体现。只有思考 token 反映了”模型用了多少计算量去搜索答案空间”。
- 它在所有架构间都可观测且可控。Gemini、OpenAI o-series、Qwen3、DeepSeek-R1 都暴露了类似的旋钮。如果换成”总 API token 数”,aggregator 的 prompt、planner 的 JSON 都会计入,多 Agent 系统会被无谓地惩罚。
- 它对应论文里 DPI 论证中的”channel 容量”。每个 worker 用 思考 token,本质就是把同一份信道容量切成 段。这与 Shannon 信道编码里的 rate-distortion 思路是同构的。
如果你做的系统真的关心的是延迟或美元成本,那需要单独建模。论文很坦诚地说自己没做这两个轴,但思考 token 是任何 budget-controlled 评估的合理起点。
2. DPI 论证两步走
论文的理论核心是两个引理,结合得很紧凑。
2.1 引理 1:完美上下文利用下,SAS 不劣于 MAS
铺设见 §1.2。要点是这样:MAS 的预测器 总可以被”复制”成一个 ——先用 模拟一次消息 ,再用 。形式上:
这个”在 下复制 MAS”的预测器与原 MAS 预测器在 上分布一致,因此错误概率一致。它属于 ,于是
直白翻译:任何 MAS 能干的事 SAS 也能干(贝叶斯意义上)。因为你可以让 SAS 在内部把 MAS 的”消息生成 + 下游决策”流程全部模拟一遍。
这件事在抽象层面上接近 trivial——任何”可以拆成多步的算法”都可以在一个更大的单步里被模拟。论文真正的价值不在这里,而在于把”思考 token”做成了那个被固定的资源,并且通过实验测出在实际 LLM 上这个 inf 离真实表现有多远。
2.2 引理 2:上下文退化时反向 DPI
但真实 LLM 不是贝叶斯最优。论文用 建模”有效上下文”: 在 上单调,越大越退化。两条 Markov 链:
DPI 给出 ,因此 。
关键点:MAS 在 §2.1 里抽取 时用的是原始 ,不是退化后的 。换句话说,SAS 实际预测器看到的是 ,MAS 看到的是 ,原始 在 SAS 这边并没有真的被”完美利用”。一旦退化足够严重,
是有可能成立的——这时 MAS 通过过滤、分解、验证等结构化操作,反而能从 中比退化的 SAS 提取出更多任务相关信号。
预测:
- 低退化区域:SAS 占优(它对完整 的利用还够好)。
- 中等退化:差距收窄。
- 高退化:MAS 反超。
这个预测被 §5.3 完整地复现出来。这是论文里我最喜欢的部分——它把”MAS 在哪些情况下值得用”明确化了,不是大而化之地说”MAS 是个补丁”。
3. 实验设计
3.1 SAS 与 SAS-L
SAS 一次调用:system prompt 是”逐步思考,然后回答;越短越好;只返回最终答案”。开源模型走 <think>...</think> 块,Gemini 走 thought summary 字段。预算 设在思考链上。
SAS-L 在 user prompt 前面加上 1.5 节那段”先分析歧义→给两种解释→选一个→再回答”的脚手架。 不变。
3.2 Sequential MAS 的具体配置
三个角色:
- Planner:输出严格 JSON,列出 步骤。预算受限。
- Worker:拿到原 question、整套 plan、前置 step 输出、本步 instruction;每个 worker 用 。
- Aggregator:读所有 step 输出,仅输出最终答案。预算受限。
总预算 ,planner+aggregator 不占可观预算。这是设计上的关键纪律。
3.3 其它四种 MAS
- Subtask-parallel:planner 必须产出独立子任务。如果任务本来就强耦合,这架构吃不到分解红利。
- Parallel-roles:四个固定角色——Solver、Fact Extractor、Skeptic、Second Solver,每人 。
- Debate:两 debater 各 给一轮答案,然后互相 critique 一轮,最后 judge 选。
- Ensemble: 个温度 0.7 候选分摊预算,judge 在温度 0 下选最佳。
Aggregator/judge 的 prompt 都被刻意限制为”挑选/合成”而非”自己重新解题”,否则就变成”再多一个 SAS”。
3.4 评估
LLM-as-judge:单独一个 Gemini-2.5-Flash,对 (question, prediction, gold) 给 yes/no。整个矩阵共用同一个 judge prompt 与 rubric,所以 judge bias 在架构间互相抵消。
3.5 规模
- 4 模型 × 6 预算 × 2 数据集 × 7 架构(SAS + SAS-L + 5 MAS)= 336 配置。
- 每个配置 bootstrap 95% CI。
这是我见过近期 agent 比较实验里最大的对比矩阵之一。
4. 主结果
4.1 表 1:跨预算平均(重排,便于直接读)
| 预算(思考 token) | SAS | SAS-L | Seq | Sub | Roles | Deb | Ens |
|---|---|---|---|---|---|---|---|
| 100 | 0.290 | 0.337 | 0.364 | 0.322 | 0.363 | 0.370 | 0.280 |
| 500 | 0.390 | 0.366 | 0.376 | 0.342 | 0.365 | 0.380 | 0.310 |
| 1000 | 0.418 | 0.397 | 0.379 | 0.369 | 0.381 | 0.388 | 0.333 |
| 2000 | 0.421 | 0.420 | 0.389 | 0.383 | 0.398 | 0.403 | 0.372 |
| 5000 | 0.427 | 0.425 | 0.386 | 0.396 | 0.417 | 0.420 | 0.411 |
| 10000 | 0.426 | 0.424 | 0.387 | 0.399 | 0.423 | 0.420 | 0.420 |
读法:
- 100 token 预算下 SAS 是垫底的。但这不是 SAS 的问题——这个预算下谁都没法真正思考,MAS 拿 planner/aggregator 的”流程红利”显得更高一点。这是测量伪影,不该作为结论。
- 预算 后,SAS 在每一档都是最佳或与最佳同档。最强 MAS 通常是 Debate 或 Parallel-roles,但它们与 SAS 的 95% CI 几乎都重叠。
- 预算 5000→10000 收益急剧递减。论文做完了,但答案是清楚的:再加预算几乎不再换准确率。
4.2 实际 token 消耗
表面看”预算对齐”,实际 MAS 常常用不满它分到的预算(planner/aggregator/worker 的 prompt 都很短,<think> 块容易在小预算上 plateau)。Appendix F 报告:SAS 不仅准确率不输 MAS,而且实际消耗的思考 token 更少。也就是说,单位思考 token 的准确率,SAS 优势更大。
4.3 Gemini 跨版本扫描
§5.2 在 MuSiQue 4-hop 上不限思考 token,扫多个 Gemini-2.5 版本。两条稳定模式:
- SAS 准确率随模型版本单调上升。
- SAS 在每个版本都与 Sequential MAS 持平或略好。
也就是说,“SAS 占优”不是某个特定 checkpoint 的伪影,而是比较框架本身的稳定属性。
4.4 上下文退化实验——预言的相位变化
§5.3 用 Qwen3-30B-A3B、MuSiQue 4-hop、预算 1000 做了四类退化:
- Deletion:随机删除 fraction 的上下文 token。
- Masking:用 mask 替换 fraction 。
- Substitution:用随机 vocabulary 替换 fraction (注入误导信号)。
- Distractor:附加 个主题相近但与问题无关的句子。
观察到的相位变化:
- Substitution 与 Masking 在 时 Sequential MAS 反超 SAS。Substitution 是最早出现交叉的——这是直觉上最破坏信号的退化。
- Deletion 趋势同向但弱:SAS 一直略占优,仅在最重的删除程度上轻微收窄。
- Distractor 不发生反超:两边都掉,但 SAS 始终领先。
这正是 §2.2 引理 2 预测的图景。把它当成一个”MAS 适用诊断表”——只在你怀疑 SAS 上下文里有大量被替换/掩码的低质量片段时,才考虑切到 MAS。简单的”上下文太长导致丢信息”,Distractor 实验告诉你 MAS 也救不了。
5. 论文的诊断学贡献
5.1 Gemini API 预算伪影
Appendix G 是我心目里这篇论文最有方法论价值的部分。作者发现:
- Gemini 2.5 Flash / Pro 在 SAS 模式下 实际产生的 thought 文本远小于
thinking_budget。 - 同样的
thinking_budget下,MAS 因为有多次 API 调用,累计 thought 文本反而接近预算。
也就是说,一个朴素的”SAS-at- vs MAS-at-”在 Gemini 上其实是给 MAS 偷偷塞了更多思考时间。SAS-L 这套脚手架的存在就是为了把 SAS 的 thought 用满。一旦用满,差距收回。
更广泛的教训:云推理 API 的”申请预算”和”实际花费”不一定相等。任何 budget-controlled 比较必须报告 actual tokens spent,不能只报 requested。
5.2 Paraphrasing ablation:基准记忆问题
Appendix A 对 MuSiQue 问题做了两种改写:
- Light Paraphrase:基于正则的短语替换,结构不变。
- Deep Paraphrase:用 Gemini-2.5-Flash 改写整句,保持语义。
两个有意思的观察:
- Light Paraphrase 让 SAS 略降。这是”问法变了导致措辞 cue 消失”的脆弱性。
- Deep Paraphrase 在 Gemini-2.5-Flash 上让 SAS 反升(0.331 → 0.358,预算 1k)。Qwen3 上略升或不变。
解读:原版 MuSiQue 问题可能有预训练记忆/surface form 过拟合的污染。深度改写迫使模型真正多跳推理,反而把成绩提高。这是对整个用 MuSiQue 做 agent 评估的文献的一个警告。
5.3 误差分析:MAS 在哪些样本上赢,又为什么输
表 2 把 MuSiQue 4-hop(预算 1k,Gemini-2.5-Flash 与 Qwen3-30B-A3B)的预测分四桶:
- MR/SW:Sequential MAS 对,SAS 错。
- SR/MW:SAS 对,Sequential MAS 错。
- BR:都对。
- BW:都错。
关键观察:
- MAS 靠”广度”赢。MR/SW 桶里,MAS 思考过的实体数大约是 SAS 的 2 倍;gold 出现在 MAS 思考里的比例 41.7% vs SAS 12.5%(Gemini)、56.7% vs 18.3%(Qwen3)。SAS 是探索不足。
- SAS 靠”锚定”赢。SR/MW 桶里 SAS 思考链与问题词汇重叠率更高;gold 出现在 SAS 思考里 42.7% vs MAS 18.6%(Gemini)。MAS 过度探索后漂移。
- MAS 的 extraction failure 是输的大头。SR/MW 桶里有 23 例(Gemini)gold 出现在 MAS 思考里但最终答案没抽出来——aggregator 把正确答案丢了。
可执行结论:
- SAS 的失败模式是”想得不够广”,可以用 SAS-L 这类 prompt 工程治。
- MAS 的失败模式是 “aggregator 抽不出”,可以用 self-consistency / 候选 confidence 打分这种基于概率的合并方法治。
- “两边都错”的桶里,gold 几乎从不出现在思考里——这才是真正反映模型能力上限的样本。
6. 我的几个保留意见
主结论我接受,但有些细节比标题更软。
6.1 理论几乎是 trivial 的——重头戏在 compute 控制
引理 1 的本质是”任何流水线都能在单 pass 里被模拟”。它不预测真实 SAS 到底比 MAS 强多少;论文的实际有效性全在实验里。这点没问题,但读者别把 DPI 当成”SAS 必胜的物理定律”,它只是排除了”MAS 有架构外溢”的可能性。
6.2 思考 token 是合适的轴,但不是唯一的轴
论文固定 thinking token。但部署时的真实约束未必是这个:
- 延迟约束(交互式聊天):MAS 有多次 roundtrip,延迟劣势远大于准确率。SAS 优势会被放大。
- 总成本约束:因为 MAS 实际用不满预算,两者总 token 反而接近。SAS 优势收窄。
- 吞吐量约束在固定质量下:Ensemble 在高预算时反而是 Gemini-2.5-Pro FRAMES 的最佳——它天然支持并行,多个 candidate 可以同时跑。这是个部署 niche。
论文没有展开 deployment-level 的分析,是一个明显的空白。
6.3 多跳推理不是 agent 的全部
文章只测了纯文本多跳推理。MAS 在真实 agent 工作里通常还涉及:
- 工具调用:每个 agent 可以独立访问 retrieval / search / code execution。MAS 这种独立 tool call 真的能扩大 ——不再是同一个 的不同压缩。DPI 论证在这里失效。
- 长 horizon 规划:Voyager / MetaGPT / SWE-agent 一类系统。
- 多模态:视觉、表格、代码。
论文在 Limitations 里很明确地说了这些不在范围内,但读者要避免过度推广。这条结论是”纯多跳文本推理上 SAS 通杀”,不是”所有 agent 系统都该用 SAS”。
6.4 MuSiQue 4-hop 的天花板太低
Gemini-2.5-Pro 顶到 0.45,开源更低。在这种准确率水平上,0.02 的差距是真实的但很小,95% CI 经常重叠到几个架构都”并列第一”。论文的 bolding 规则会让对比看上去比点估计更平。所以一条更保守的说法是:“SAS 在 7 种架构里属于第一梯队,且通常以最少的实际 token 达到”。
6.5 Sequential 的 没扫
如果 planner 把问题切成 7 步,每 worker 只剩 token(在 时),这种 worker 几乎跑不出像样的思考。可能 Sequential 的成绩被 planner 的”过度分解”压低了。一个学习型 planner(论文里引用的 Ke 等 2026 MAS-Orchestra)应该能改善——但论文没扫这一维,是个 follow-up 空白。
7. 我会在下一版做的事
如果让我接着做这个方向,我会优先做四件事:
- 以实际花费的思考 token 重新归一化。论文图都是按 requested budget,改成 actual budget 之后 SAS 的优势会更明显。
- 加上工具调用变体。这是 DPI 论证的逃生通道,理论上 MAS 真的可以扩大 ;这件事直到现在还没被严格做过 budget-controlled 比较。
- 改 aggregator 为基于校准 confidence 的合并。表 2 的 SR/MW 桶清楚地告诉我们,MAS 经常是”找到了 gold 但 aggregator 漏掉”。Self-consistency、token-level logprob 加权这种方法应该能补回相当一部分损失。
- 延迟图。把 wall-clock 拉进来。即使 MAS 准确率持平,多次 roundtrip 在交互式场景里仍是致命缺陷。这是一个部署故事,论文没讲。
8. 复现性
论文给出的:
- Appendix D 完整列出 7 种架构的所有 prompt——这非常良心,多数 MAS 工作都不愿意做。
- 温度:Ensemble 0.7,其余 0。
- Judge prompt:§D.7。
- 超参数:除温度外全默认。
没在正文给出的(推测在代码 release 里):budget-splitting wrapper 实现、planner 对每条 question 的 JSON 输出、FRAMES / MuSiQue 的过滤脚本。
复现建议:
- 在 Qwen3 / DeepSeek 上你应该能在 bootstrap noise 之内复现。
- 在 Gemini 上务必同时跑 SAS 与 SAS-L;没有 SAS-L 的 Gemini 比较因为 API 预算伪影是不可信的。
9. 适用边界
为了避免过度推广,明确写一下这条结论不适用的场景:
- 工具增强 agent: 不再是同一个,DPI 论证失效。
- 视觉/多模态:未测试。
- 安全关键场景,需要冗余做故障隔离的 pipeline:不是准确率问题,MAS 仍可能更合适。
- 长 horizon 规划(Voyager、MetaGPT、SWE-agent 风格):未测试。
- 天然可独立分解的任务(例如并行编辑多个代码文件):Subtask-parallel 可能确实有优势,论文里 4-hop QA 这个 setting 看不到。
- 没有 thinking-mode 的模型:预算可控性差,整套对比框架都会松动。
边界之内(容量足够的 reasoning 模型 + 纯文本多跳推理):结论稳。
10. 与前人工作的关系
- Anthropic 2025 “How we built our multi-agent research system”:明确说 MAS 优势大部分来自 compute 增加。这篇 Tran & Kiela 把它从一个工程观察变成可证伪假设,并在实验里证实。
- Wang 等 2024 “Reasoning in Token Economies”:预算对齐后许多复杂 prompting 不再胜过简单 baseline;这篇是同一思路下的 SAS vs MAS 应用。
- Cemri 等 2025 “Why do multi-agent LLM systems fail?”:MAS 失败分类(漂移、信息丢失、评估伪影);本论文里的误差分析正是这些失败模式的实例。
- Kim 等 2025 “Towards a science of scaling agent systems”:agentic 收益随基座能力增强而递减——与本论文 Gemini 跨版本扫描方向一致。
- Ke 等 2026 “MAS-Orchestra”:学习型 MAS 编排。自然的下一步是看学习型 planner 能否在预算对齐的 setting 下缩小差距。
这篇论文的独特价值在于组合:清洁的理论 + 大型预算对齐实验矩阵 + 一个被严格刻画的边界条件(context degradation)+ 一份方法学审计(Gemini 计量伪影、MuSiQue 改写脆弱性)。
11. 一个部署侧的小算账
假设你在 Gemini-2.5-Pro 上做多跳问答系统,两种方案:
- 方案 A:SAS,思考预算 5000。平均 MuSiQue 4-hop 准确率 ≈ 0.42。成本约 5000 思考 token × $5/M ≈ $0.025/题。延迟 ≈ 1 个 API roundtrip + 5000 token 生成。
- 方案 B:Sequential MAS,planner + 5 worker + aggregator,worker 每个 1000。平均准确率 ≈ 0.39。成本与方案 A 接近(worker 通常用不满预算),但延迟 ≈ 7 倍。
准确率差 0.03 偏向 SAS。成本基本平。延迟差 7 倍。除非你确实在退化上下文区域,否则方案 A 一面倒占优。论文没展开这个算账,但数据本身完全支撑。
12. SAS-first agent 工程实操清单
结合论文和我自己的判断:
- 多跳推理默认走 SAS。在有 thinking mode 的模型上,把 MAS 当 fallback 而不是 baseline。
- 测量”实际花费的思考 token”,不要相信申请预算。
- Gemini-2.5 上加 SAS-L 前缀——零成本的提升,没有理由不加。
- 上 MAS 前先 profile 上下文利用率。短而干净的上下文上 MAS 没用;长而噪声多的上下文才考虑 MAS。
- 要用 MAS 优先用 Debate 或 Parallel-roles,避免低预算 Ensemble。
- 审计 aggregator。SR/MW 桶里大量”gold 出现在思考里但被丢弃”的案例提示 aggregator 是漏点。改成 self-consistency 或 token-level confidence 评分。
- 基准必须经过深度改写测试。如果准确率在 deep paraphrase 下大幅下降,说明你被 surface form 记忆污染。
- 100 thinking token 当对照组,不当比较。500 以下信号噪声比太低。
12.5 一些容易被忽略的细节
读完整篇论文后,有几个细节我想单独记下来,它们在主线叙述里被淡化了,但对工程实践很要紧:
- 温度 0 是默认,Ensemble 是唯一例外(0.7)。如果你重新做这个实验,注意 SAS 与 4 种 MAS 都是 deterministic 的;只有 Ensemble 才依赖采样多样性。这意味着 Ensemble 的表现下限取决于”种子运气”,并不像表面上看那么稳定。
- Aggregator 被刻意限制为”挑选/合成”。它不被允许”重新推理”。这是公平比较的关键约束。如果你在生产里发现你的 aggregator 偷偷在做 second-pass reasoning(很常见),你的 MAS 数据是不可比的——它在私底下把 token 预算又加了一倍。
- Planner 输出严格 JSON。Gemini 与开源模型在 JSON-mode 下输出的 step 数有差异(Gemini 倾向于更细分),这间接地让 Sequential 在 Gemini 上的 比开源模型高,从而每 worker 的 更小、思考更稀。这是论文里没有显式扫的混淆变量。
- MuSiQue 4-hop 而非全部 hop。论文显式过滤到 4-hop。1-3 hop 时 SAS 与 MAS 几乎都饱和到 1.0,比较没意义;5+ hop 又超出当前模型能力。4-hop 恰好是 sweet spot。换到不同 hop 度,结论可能不完全平移。
- judge 用 Gemini-2.5-Flash。理论上 judge 与被评估模型不应该是同一家。这里 Flash 评估 Pro 是个潜在偏置(同家族),但论文用同一 judge 评估所有架构,所以 架构间的差异 不会被这个偏置影响——只是 绝对准确率 会有偏。
- 没有 RAG。FRAMES 与 MuSiQue 在本论文里都是 closed-book(仅给问题,不给检索结果)。一旦加入 RAG,模型的有效上下文 就变了,DPI 论证里的 也跟着变。这件事和 §6.3 提到的工具调用是同一类延伸。
这些细节都不动摇主结论,但任何想”在我的系统里复现这个对比”的人,必须对照它们一一确认自己的 setup。
13. 结尾一句
如果我要用一句话向同事概括这篇论文:多 Agent LLM 系统的本质是”compute 多了一些、内部通信通道差了一些的单 Agent 系统”。把这两件事都纠正之后,架构红利在多跳推理里基本消失,除非你的上下文已经退化到 SAS 难以利用的程度。
这是一个边界清晰、有理论支撑、有实证证据、有可操作建议的结论。下一篇值得做的论文我已经写在 §7:每个 agent 都能独立调用工具时,picture 是怎样的?——那才是 MAS 真正可能扩大 的 setting,DPI 在那里就站不住了。在那篇出来之前,纯推理 MAS 的工程默认值应该是”先别用,除非测过确实需要”。
参考文献
- Tran, D., & Kiela, D. (2026). Single-Agent LLMs Outperform Multi-Agent Systems on Multi-Hop Reasoning Under Equal Thinking Token Budgets. arXiv:2604.02460v2.
- Cover, T. M., & Thomas, J. A. (2006). Elements of Information Theory (2nd ed.). Wiley-Interscience.
- Anthropic (2025). “How we built our multi-agent research system”. Engineering blog.
- Wang, J., et al. (2024). “Reasoning in token economies: budget-aware evaluation of LLM reasoning strategies”. EMNLP 2024.
- Cemri, M., et al. (2025). “Why do multi-agent LLM systems fail?”. arXiv:2503.13657.
- Krishna, S., et al. (2025). “Fact, fetch, and reason: a unified evaluation of retrieval-augmented generation” (FRAMES). NAACL 2025.
- Trivedi, H., et al. (2022). “MuSiQue: multihop questions via single-hop question composition”. TACL.
- Liu, N. F., et al. (2024). “Lost in the middle: how language models use long contexts”. TACL 12.
- Du, Y., et al. (2024). “Improving factuality and reasoning in language models through multiagent debate”. ICML 2024.
- Shinn, N., et al. (2023). “Reflexion: language agents with verbal reinforcement learning”. NeurIPS 2023.
- Li, J., et al. (2024). “More agents is all you need”. arXiv:2402.05120.
- Kim, Y., et al. (2025). “Towards a science of scaling agent systems”. arXiv:2512.08296.
- Ke, Z., et al. (2026). “MAS-Orchestra: understanding and improving multi-agent reasoning”. arXiv:2601.14652.
笔记作者:Zhongzhu Zhou,2026-05-18。欢迎反馈。