结语
先说没讲什么
这份手记写到这里,13 章正文结束了。在开始下一步之前,我得先交代清楚边界——哪些东西这份手记没讲。
这份手记不教你从零实现一个 Agent 框架。 没有手把手的"先写这个类,再写这个方法"。市面上已经有很好的教程做这件事,附录 B 里推荐了几份。这份手记讲的是"做 Agent 的时候怎么不翻车",不是"怎么从零造一个"。
这份手记不涉及模型训练和微调。 我是应用层的工程师,讲的是"怎么用好别人训练好的模型",不是"怎么自己训模型"。这块我不懂,不敢乱讲。
这份手记不覆盖多模态。 书里的经验都来自文本场景,图像、语音、视频这些我没实践过。
这份手记没有完整的项目代码。 它讲"判断和方法",不讲"具体实现"。代码片段有一些,但都是脱敏后的片段,不是完整项目。
第五部分讲的东西,我自己大部分还没做到。 CI、监控闭环、超时重试熔断——这些我知道该做,写了进去,但实践还在路上。这一部分与其说是"经验分享",不如说是"一个反例展览"。
再说一句实话:我也还在路上
写完这 13 章,回头通读一遍,说实话有点心虚。
心虚不是因为内容有错——每一条都是从真实的坑里提炼的,我对得起每一个字。心虚是因为——这份手记呈现出来的样子,可能比我实际的水平要"完整"得多。
手记里的结构是清晰的:认知篇、设计篇、验证篇、协作篇、工程篇,五个部分,层层递进。但真实的我不是这样走过来的。真实的我是东一榔头西一棒子,碰到一个问题查一个,查完回来改一改,改完又发现新问题。前面章节里那些看起来条理分明的"原则""模型""清单",是事后整理出来的,不是我一开始就有的认知框架。
而且说实话,很多地方我探索得还很浅。
多 Agent 协作,我做了一个 PM + 开发的模式,跑通了基本的五要素。但更复杂的场景——三个以上 Agent 怎么协作?Agent 之间的状态怎么同步?多 Agent 的 eval 怎么做?这些我都没碰。
eval 框架,我搭了一个能跑的版本,16 个用例。但"跑 5 次看通过率"只是最基础的非确定性处理策略,更精细的分层阈值我连代码都没写完。eval 的工程化——每次提交自动跑、结果自动比对回归基线——更是还没影的事。
鲁棒性和质量门禁,前面说过了,基本是反例。我知道该做什么,但大部分没做。
所以我也有一些还没想明白的疑问:
Agent 项目的测试金字塔应该长什么样? 传统软件有单元/集成/端到端的金字塔。Agent 项目里,eval 算哪一层?算法层测试和 Agent 行为测试怎么配比?我还没有一个让自己信服的答案。
LLM 裁判到底怎么校准才靠谱? 第 7 章讲了"定期人工抽查",但这只是一个原则。具体怎么抽样、抽多少、校准的指标怎么定、发现飘了怎么调——这些我还在摸索。
概率性系统的"可观测性"应该怎么做? 传统软件有 metrics、logs、tracing 三件套。Agent 时代的可观测性,除了这些,还需要什么?Agent 的决策链路怎么追踪?工具调用的成功率和延迟怎么监控?这些我还没系统想过。
什么时候该上多 Agent,什么时候用单 Agent 加工具就够了? 第 8 章给了三条判断标准,但那是我个人的经验总结,不是经过大量验证的方法论。在实际项目中,这条线经常是模糊的。
这份手记真正的价值
说了这么多"没做到"和"没想明白",那这份手记到底有什么用?
我觉得它的价值不在于"教会你怎么做"——很多地方我自己还在摸索,教不了。它的价值在于**"让你知道有哪些坑,坑在哪里,大概长什么样"**。
你不用照着我写的做。你可以用更好的方法绕过这些坑,用更成熟的技术栈,用更完善的质量保证体系。但至少——当你遇到类似的问题时,你会想起"哦,书上说这个地方有坑",然后提前看一眼。少踩一个坑,就值回票价了。
这就是一个走在半路上的人,能给你的全部东西了。
下一步
写完这份手记之后,我自己接下来想往这几个方向探索:
- 把第五部分的"反例"补成"正例"——至少把 CI 和超时重试熔断补上
- 深入 eval 的工程化——让 eval 从"手动跑"变成"提交自动跑"
- 继续做手里的项目,在持续迭代中验证这些经验到底对不对
如果将来这些探索有了新的收获,也许会有第二版。但那是后话了。
走到这里的读者,不管你是从头读到尾,还是跳着翻了几章——谢谢你的时间。希望这本手记里有一两句话,能在你做 Agent 的时候帮上忙。
我们路上见。