附录 B · 推荐阅读
这些是我做 Agent 项目过程中真正读过、真正觉得有用的资料。不是全面的书单,是我个人的筛选结果。
Agent 工程理论
Anthropic · Building Effective Agents Anthropic 官方的 Agent 工程指南。这份手记第 1 章讲"Agent = Model + Harness"的很多认知,源头就在这里。它把 Agent 的几种模式(提示链、路由、编排器-工作者、评估器-优化器)讲得非常清楚。
Anthropic · Writing Tools for Agents 工具设计的权威指南。第 4 章那个"72% → 90%"的数据就出自这里。如果你只能读一篇关于 Agent 工具设计的文章,读这篇。
Addy Osmani · Agent Harness Engineering "harness engineering"这个概念的提出者。第 1 章那句"A decent model with a great harness beats a great model with a bad harness"就是他说的。
多 Agent 协作
Cognition · Don't Build Multi-Agents Devin 团队的反面观点文章。第 8 章的"多 Agent 不是银弹"很大程度上受这篇文章启发。它给出了"为什么不该建多 Agent"的三条理由,值得认真读。
LangChain · How and When to Build Multi-Agent Systems 比 Cognition 温和一些,既讲多 Agent 的价值也讲风险。第 8 章引用的"主要读取的多 Agent 比主要写入的更容易管理"就出自这里。
普林斯顿 NLP · 相关研究论文 关于"64% 的任务单 Agent 更优"的学术支撑。如果你喜欢看论文,可以深挖这个团队的工作。
测试与评估
Anthropic · Demystifying Evals for AI Agents Agent eval 的权威指南。第 6 章讲的"eval = 输入 + 打分逻辑"的定义就出自这里。从 eval 设计到 LLM-as-Judge 到统计分析,覆盖很全。
Braintrust · Eval-Driven Development EDD(评测驱动开发)概念的提出者。第 6 章"eval-driven"这个说法的来源。
Agent 循环设计
Anthropic · Claude Code Best Practices Claude Code 官方的最佳实践。第 5 章"保持循环简单"的很多结论,和这篇文章对 Claude Code 自身循环的描述是吻合的。
OpenHands SDK 文档 开源 Agent 框架。它的循环设计(agent.step(state) → Action → Runtime → Observation → repeat)是"简单循环"理念的典型样本。
补充说明
这些资料大多是英文的,而且是工程博客或文档,不是教科书。它们更适合"已经做了一两个 Agent 项目、想往深了走"的人。如果你还没跑通过第一个 Agent demo,建议先看入门教程,把这些资料留到踩了第一个坑之后再读——那时候你会有完全不同的感受。