附录 B · 推荐阅读

这些是我做 Agent 项目过程中真正读过、真正觉得有用的资料。不是全面的书单，是我个人的筛选结果。

Agent 工程理论

Anthropic · Building Effective Agents Anthropic 官方的 Agent 工程指南。这份手记第 1 章讲"Agent = Model + Harness"的很多认知，源头就在这里。它把 Agent 的几种模式（提示链、路由、编排器-工作者、评估器-优化器）讲得非常清楚。

Anthropic · Writing Tools for Agents 工具设计的权威指南。第 4 章那个"72% → 90%"的数据就出自这里。如果你只能读一篇关于 Agent 工具设计的文章，读这篇。

Addy Osmani · Agent Harness Engineering "harness engineering"这个概念的提出者。第 1 章那句"A decent model with a great harness beats a great model with a bad harness"就是他说的。

多 Agent 协作

Cognition · Don't Build Multi-Agents Devin 团队的反面观点文章。第 8 章的"多 Agent 不是银弹"很大程度上受这篇文章启发。它给出了"为什么不该建多 Agent"的三条理由，值得认真读。

LangChain · How and When to Build Multi-Agent Systems 比 Cognition 温和一些，既讲多 Agent 的价值也讲风险。第 8 章引用的"主要读取的多 Agent 比主要写入的更容易管理"就出自这里。

普林斯顿 NLP · 相关研究论文 关于"64% 的任务单 Agent 更优"的学术支撑。如果你喜欢看论文，可以深挖这个团队的工作。

测试与评估

Anthropic · Demystifying Evals for AI Agents Agent eval 的权威指南。第 6 章讲的"eval = 输入 + 打分逻辑"的定义就出自这里。从 eval 设计到 LLM-as-Judge 到统计分析，覆盖很全。

Braintrust · Eval-Driven Development EDD（评测驱动开发）概念的提出者。第 6 章"eval-driven"这个说法的来源。

Agent 循环设计

Anthropic · Claude Code Best Practices Claude Code 官方的最佳实践。第 5 章"保持循环简单"的很多结论，和这篇文章对 Claude Code 自身循环的描述是吻合的。

OpenHands SDK 文档 开源 Agent 框架。它的循环设计（agent.step(state) → Action → Runtime → Observation → repeat）是"简单循环"理念的典型样本。

补充说明

这些资料大多是英文的，而且是工程博客或文档，不是教科书。它们更适合"已经做了一两个 Agent 项目、想往深了走"的人。如果你还没跑通过第一个 Agent demo，建议先看入门教程，把这些资料留到踩了第一个坑之后再读——那时候你会有完全不同的感受。