结语

先说没讲什么

这份手记写到这里，13 章正文结束了。在开始下一步之前，我得先交代清楚边界——哪些东西这份手记没讲。

这份手记不教你从零实现一个 Agent 框架。 没有手把手的"先写这个类，再写这个方法"。市面上已经有很好的教程做这件事，附录 B 里推荐了几份。这份手记讲的是"做 Agent 的时候怎么不翻车"，不是"怎么从零造一个"。

这份手记不涉及模型训练和微调。 我是应用层的工程师，讲的是"怎么用好别人训练好的模型"，不是"怎么自己训模型"。这块我不懂，不敢乱讲。

这份手记不覆盖多模态。 书里的经验都来自文本场景，图像、语音、视频这些我没实践过。

这份手记没有完整的项目代码。 它讲"判断和方法"，不讲"具体实现"。代码片段有一些，但都是脱敏后的片段，不是完整项目。

第五部分讲的东西，我自己大部分还没做到。 CI、监控闭环、超时重试熔断——这些我知道该做，写了进去，但实践还在路上。这一部分与其说是"经验分享"，不如说是"一个反例展览"。

写完这 13 章，回头通读一遍，说实话有点心虚。

心虚不是因为内容有错——每一条都是从真实的坑里提炼的，我对得起每一个字。心虚是因为——这份手记呈现出来的样子，可能比我实际的水平要"完整"得多。

手记里的结构是清晰的：认知篇、设计篇、验证篇、协作篇、工程篇，五个部分，层层递进。但真实的我不是这样走过来的。真实的我是东一榔头西一棒子，碰到一个问题查一个，查完回来改一改，改完又发现新问题。前面章节里那些看起来条理分明的"原则""模型""清单"，是事后整理出来的，不是我一开始就有的认知框架。

而且说实话，很多地方我探索得还很浅。

多 Agent 协作，我做了一个 PM + 开发的模式，跑通了基本的五要素。但更复杂的场景——三个以上 Agent 怎么协作？Agent 之间的状态怎么同步？多 Agent 的 eval 怎么做？这些我都没碰。

eval 框架，我搭了一个能跑的版本，16 个用例。但"跑 5 次看通过率"只是最基础的非确定性处理策略，更精细的分层阈值我连代码都没写完。eval 的工程化——每次提交自动跑、结果自动比对回归基线——更是还没影的事。

鲁棒性和质量门禁，前面说过了，基本是反例。我知道该做什么，但大部分没做。

所以我也有一些还没想明白的疑问：

Agent 项目的测试金字塔应该长什么样？ 传统软件有单元/集成/端到端的金字塔。Agent 项目里，eval 算哪一层？算法层测试和 Agent 行为测试怎么配比？我还没有一个让自己信服的答案。

LLM 裁判到底怎么校准才靠谱？ 第 7 章讲了"定期人工抽查"，但这只是一个原则。具体怎么抽样、抽多少、校准的指标怎么定、发现飘了怎么调——这些我还在摸索。

概率性系统的"可观测性"应该怎么做？ 传统软件有 metrics、logs、tracing 三件套。Agent 时代的可观测性，除了这些，还需要什么？Agent 的决策链路怎么追踪？工具调用的成功率和延迟怎么监控？这些我还没系统想过。

什么时候该上多 Agent，什么时候用单 Agent 加工具就够了？ 第 8 章给了三条判断标准，但那是我个人的经验总结，不是经过大量验证的方法论。在实际项目中，这条线经常是模糊的。

说了这么多"没做到"和"没想明白"，那这份手记到底有什么用？

我觉得它的价值不在于"教会你怎么做"——很多地方我自己还在摸索，教不了。它的价值在于**"让你知道有哪些坑，坑在哪里，大概长什么样"**。

你不用照着我写的做。你可以用更好的方法绕过这些坑，用更成熟的技术栈，用更完善的质量保证体系。但至少——当你遇到类似的问题时，你会想起"哦，书上说这个地方有坑"，然后提前看一眼。少踩一个坑，就值回票价了。

这就是一个走在半路上的人，能给你的全部东西了。

写完这份手记之后，我自己接下来想往这几个方向探索：

如果将来这些探索有了新的收获，也许会有第二版。但那是后话了。

走到这里的读者，不管你是从头读到尾，还是跳着翻了几章——谢谢你的时间。希望这本手记里有一两句话，能在你做 Agent 的时候帮上忙。

我们路上见。