Sherry's Blog

本文通过对 Claude Code 源代码（205,000+ 行 TypeScript）的实际分析，深入探讨其在 Prompt Caching、Vector Memory/RAG、Model Routing、Evaluation & Observability、Agent 可靠性工程五个方向上的工程选择，以及为何这些选择最终构成了竞品难以跨越的壁垒。

前言：一块“不完美的布料”

Claude Code 的核心 AI 能力来自 Claude API——一个所有开发者都可以调用的公开接口。从这个角度看，Claude Code 并没有任何独家的“AI 黑魔法”。

那么它凭什么脱颖而出？

答案是：工程化。就像一个优秀的裁缝，拿到和其他人一样的布料，却能裁剪出截然不同的成品。Claude Code 团队做的事，是把一个“可能不完美”的 AI 能力，通过精密的工程设计，变成了一个开发者真正离不开的工具。

接下来，我们通过五个技术方向，逐一拆解这套工程化的底层逻辑。

一、Prompt Caching：够用，但不是重点

Claude Code 的实现方式

在代码层面，Claude Code 的 Prompt Caching 主要体现在两个地方：一是 API 调用时的 token 复用优化（减少重复上下文的计算成本），二是文件状态缓存（fileStateCache.ts），避免对同一文件重复读取和编码。

此外，compact 模块（services/compact/）实现了一套精密的上下文压缩策略：

1 2	DEFAULT_MAX_INPUT_TOKENS = 180,000 // 触发压缩的阈值 DEFAULT_TARGET_INPUT_TOKENS = 40,000 // 压缩后保留的目标大小

当上下文接近模型限制时，系统会自动清除不必要的工具调用结果，保留最关键的对话片段。这本质上是一种“主动的 Prompt 管理”，而不是被动等待 token 超限。

为什么不是重点

Prompt Caching 是成本优化手段，解决的是“用得更省”的问题，而不是“用得更好”的问题。对用户体验的直接影响有限，更多是帮助 Anthropic 控制运营成本。

评分：★★★☆☆（够用，非差异化）

二、Vector Memory / RAG：主动放弃，换来更高可靠性

Claude Code 的实现方式

从代码来看，Claude Code 的“记忆”系统是文件系统驱动的，而非向量检索驱动的。核心模块 memdir/ 实现了一套基于 MEMORY.md 文件的记忆管理：

1
2
3

export const ENTRYPOINT_NAME = 'MEMORY.md'
export const MAX_ENTRYPOINT_LINES = 200
export const MAX_ENTRYPOINT_BYTES = 25_000

记忆的写入和读取都是结构化的文本操作。系统有 findRelevantMemories.ts，但其“相关性”判断依赖的是关键词和文件结构，而非语义向量搜索。

项目级上下文则通过 CLAUDE.md 文件注入，由用户自主维护。这意味着上下文的“精准度”掌控权在用户手里，而不是交给一个可能产生幻觉的向量检索系统。

这是一个深思熟虑的放弃

向量 RAG 在某些场景下的问题显而易见：

语义检索可能把不相关的内容检索进来，干扰 AI 判断
向量数据库的构建和维护增加了系统复杂度
对于代码工具，精确的文件路径引用远比模糊的语义相似度可靠

Claude Code 的选择是：用更可控的文件系统记忆替代不可控的向量检索。代价是“智能程度”看起来低了一些，收益是系统行为更可预测、更值得信赖。

这个选择揭示了一个反直觉的工程哲学：在可靠性和智能性之间，先选可靠性。

评分：★★☆☆☆（有意识地不做，反而是正确选择）

三、Model Routing：规则路由，而非智能路由

Claude Code 的实现方式

utils/model/model.ts 实现了模型选择逻辑，优先级如下：

1. 会话内 /model 命令指定（最高优先级）
2. 启动时 --model 参数
3. ANTHROPIC_MODEL 环境变量
4. 用户保存的设置
5. 默认模型

此外有两个“智能化”尝试：

Fast Mode（utils/fastMode.ts）：允许用户切换到更小、更快的模型，本质是用户手动触发的降级。

Advisor Mode（utils/advisor.ts）：特定场景下使用不同模型提供建议，是固定规则的多模型协作，而非动态路由。

还没到“智能路由”

真正的 Model Routing 应该是：系统自动感知任务复杂度，动态选择最合适的模型（比如简单问题用 Haiku，复杂代码分析用 Opus）。Claude Code 目前的实现更接近“用户可控的模型切换”，自动化程度不高。

这里有一个商业逻辑在起作用：Claude Code 是 Anthropic 自家产品，过于激进地将流量导向小模型，可能与业务目标冲突。

评分：★★★☆☆（有基础，未深入）

四、Evaluation & Observability：扎实的内功，产品迭代的基石

Claude Code 的实现方式

这是五个方向里工程投入第二深的领域，只是因为“用户看不见”而常被忽视。

成本追踪系统（cost-tracker.ts）

精细到每一次 API 调用的成本记录，包括输入 token、输出 token、缓存命中情况。这不只是给用户看的数字，更是内部优化的数据基础。

诊断追踪系统（services/diagnosticTracking.ts）

记录工具调用的成功/失败、耗时分布、错误类型分类。代码里甚至有专门的类型标注来保护隐私：

1 2	// 强制标注：确认日志内容不含代码片段或文件路径 type AnalyticsMetadata_I_VERIFIED_THIS_IS_NOT_CODE_OR_FILEPATHS = never

这个类型名本身就是一种工程规范——让隐私保护成为编译时约束，而不是运行时检查。

启动性能分析（utils/startupProfiler.ts）

从 main.tsx 第一行就开始计时：

1
2
3

profileCheckpoint('main_tsx_entry');  // 第一行代码
startMdmRawRead();                    // 并行启动MDM读取
startKeychainPrefetch();             // 并行预取密钥链

把启动优化做到毫秒级，体现了对用户体验细节的执着。

为什么这个方向至关重要

没有 Observability，就无法知道“哪里出了问题”和“哪里可以更好”。Claude Code 的快速迭代能力，很大程度上依赖这套完善的可观测体系。这是一种“自我进化”的基础设施。

评分：★★★★☆（扎实，是持续改进的引擎）

五、Agent 可靠性工程：核心护城河，竞品最难复制的壁垒

这是 Claude Code 投入最深、做得最好、差异化最大的方向。

任务状态机：AI 行为的工程化约束

Task.ts 里定义的类型，是整个可靠性体系的缩影：

// 任务类型：覆盖从本地到远程的全场景
type TaskType =
  | 'local_bash'          // 本地 Shell 命令
  | 'local_agent'         // 本地 Agent
  | 'remote_agent'        // 远程 Agent
  | 'in_process_teammate' // 进程内协作 Agent
  | 'local_workflow'      // 本地工作流
  | 'monitor_mcp'         // MCP 服务监控
  | 'dream'               // 异步推理任务

// 任务状态：严格的生命周期管理
type TaskStatus = 'pending' | 'running' | 'completed' | 'failed' | 'killed'

// 终态判断：防止向已完成任务注入消息
function isTerminalTaskStatus(status: TaskStatus): boolean {
  return status === 'completed' || status === 'failed' || status === 'killed'
}

这套状态机解决了 AI Agent 最核心的可靠性问题：AI 的输出是不确定的，但任务的状态管理必须是确定的。

QueryEngine：把不可靠的 AI 变成可信赖的执行者

QueryEngine.ts（46KB）是整个系统的心脏。它做的核心工作是：

多轮对话管理：维护完整的消息历史，确保 AI 不“失忆”
工具调用链：处理 AI 调用工具 → 工具返回结果 → AI 继续推理的循环
错误分类与重试：categorizeRetryableAPIError 区分可重试错误和不可重试错误
会话持久化：flushSessionStorage 确保对话可以恢复

权限系统：让用户对 AI 行为有掌控感

这是竞品普遍缺失的设计。Claude Code 的权限系统包括：

工具级别的权限控制（哪些工具可以自动执行，哪些需要确认）
操作拒绝追踪（DenialTrackingState）
孤儿权限清理（OrphanedPermission）

用户知道 AI 在做什么，可以在任何时候介入。这种透明度建立了信任，而信任是开发者愿意把真实工作交给 AI 的前提。

多 Agent 协作：面向未来的架构

in_process_teammate 任务类型和 swarm/ 目录下的代码，实现了多个 Agent 并行工作、互相通信的能力。这不是玩具，是生产级的 Agent 协作框架。

为什么竞品难以复制

可靠性工程没有捷径。它需要：

大量的边界情况处理（网络超时、API 失败、并发冲突）
长期迭代积累的错误经验
完善的 Observability 支撑（才能发现问题）
对用户工作流的深刻理解

这些都是时间和经验的积累，不是“抄一下架构”就能获得的。

评分：★★★★★（核心护城河）

六、被忽视的第六个方向：上下文工程（Context Engineering）

在讨论完五个显性方向后，还有一个更底层、更关键、但通常不被单独列出的方向：上下文工程。

这是 Claude Code 把“不完美的布料裁剪好”的那把剪刀。

自动上下文收集（context.ts）

每次与 AI 交互前，系统自动收集：

Git 仓库状态（getGitStatus()）
当前分支信息
文件修改记录
项目 CLAUDE.md 内容

这些信息经过精心裁剪后注入系统提示，让 AI 在开口说话前就已经“了解”了当前的工作场景。

上下文的主动压缩

前文提到的 compact 模块，本质上是上下文工程的一部分。当对话变长时，系统主动识别“哪些工具调用结果已经没用了”，把它们从上下文中清除，保留“真正有价值的信息”。这种主动管理，远比让 AI 自己决定“记什么”更可靠。

CLAUDE.md：用户参与的上下文定制

这个设计让用户成为上下文工程的参与者。用户可以在项目根目录放一个 CLAUDE.md，告诉 AI“在这个项目里，你需要知道什么”。这把上下文的控制权还给了用户，同时也降低了系统的复杂度。

上下文工程的核心洞察

给 AI 的信息越精准，AI 的表现越好。给 AI 的信息越多余，AI 的表现越差。

大多数 AI 工具失败，不是因为模型不够强，而是因为“把太多噪声塞给了模型”。Claude Code 在上下文精准化上的工程投入，是其输出质量稳定性的根本保障。

综合评估

技术方向	完成深度	差异化价值	核心作用
Agent 可靠性工程	★★★★★	最高	核心护城河
上下文工程	★★★★★	极高	输出质量基石
Evaluation & Observability	★★★★☆	高	持续迭代引擎
Model Routing	★★★☆☆	中	够用
Prompt Caching	★★★☆☆	中	成本优化
Vector Memory / RAG	★★☆☆☆	低（有意放弃）	以可靠性换智能性

结语：工程化是真正的竞争力

回到最开始的那个问题——Claude Code 为什么成功？

不是因为它有独家的 AI 能力，而是因为它把一套“可以调用的 AI 接口”，通过精密的工程设计，变成了一个开发者真正可以信赖的协作者。

这中间的差距，就是 205,000 行代码、数十个精心设计的模块、无数个边界情况的处理、以及对开发者工作流长达数年的深刻理解。

Agent 可靠性工程和上下文工程，是这套工程化体系最核心的两根柱子。前者解决“AI 不可信”的问题，后者解决“AI 不够聪明”的问题。两者合力，让 Claude Code 从“很酷的演示”变成了“生产可用的工具”。

这给我们的启示是：在 AI 工具赛道，技术创新固然重要，但工程化的深度往往才是真正的护城河。模型能力可以被追上，但多年积累的工程经验和对用户的深刻理解，不是短时间内可以复制的。

本文基于对 Claude Code 公开代码库的分析写成，部分内部实现细节可能随版本更新而变化。

Claude Code 的工程化成功之道：五个关键技术方向的深度拆解

前言：一块“不完美的布料”

一、Prompt Caching：够用，但不是重点

二、Vector Memory / RAG：主动放弃，换来更高可靠性

三、Model Routing：规则路由，而非智能路由

四、Evaluation & Observability：扎实的内功，产品迭代的基石

五、Agent 可靠性工程：核心护城河，竞品最难复制的壁垒

六、被忽视的第六个方向：上下文工程（Context Engineering）

综合评估

结语：工程化是真正的竞争力

Claude Code 代码库分析：Agent 可靠性工程才是真正的护城河

Agent 可靠性工程：做得最好，也是核心差异化

Evaluation & Observability：做得相当扎实

Model Routing：有做，但是浅