第 20 步 · 本地 AI 进阶 · 14 分钟

⚡混合：云 + 本地

两个世界中最好的部分。Claude Code 掌舵, 它规划、推理、复核, 把重复的粗活交给本地模型。私密、省钱，而且效率惊人。

现在您手里有两个世界：一个智能惊人的云端代理（Claude Code），以及一些在您家免费运行的模型（Ollama）。错误的问题是「选哪个？」。真正的答案是：两个，同时，各就各位。

这就是混合搭配。而核心角色落在 Claude Code，担任总指挥。它不亲自做完一切, 它决定谁做什么，并把大批量的工作委派给本地模型。

fig.混合：Claude Code 把难的推理留在云端这一侧，把重复的粗活通过 Ollama 发给本地模型。一切都汇聚到您的项目。

为什么混着用，而不是二选一

两个世界有着相反的长处，而这恰恰使它们互补：

**云端（Claude）**在难的推理、长任务、可靠的 tool use、架构上无可匹敌。但每次调用都要钱，而且您的数据流向第三方。
本地（Ollama）按使用免费、私密、离线可用，对边界清晰且重复的任务来说足够好。但它在长链智能体和尖端推理上力不从心（我们在选择您的模型里直言不讳地讲过）。

混合搭配取两者之长：您把尖端智能留在它真正要紧的地方，把成本和数据外泄压在其余的一切上, 也就是 80% 的量。

Claude Code 当编排器：它怎么运作

让这成为可能的关键：Claude Code 能运行命令。而 Ollama 在 http://localhost:11434 上暴露了一个极简单的本地 API。所以 Claude Code 可以调用您的本地模型, 通过一个 curl、一个脚本或一个小工具, 就像它调用任何命令那样。

具体来说，您告诉 Claude：「这个批量任务别自己做，通过 Ollama API 委派给本地模型」。它写出在您的文件上循环的脚本，对每个文件敲本地模型，再把整合好的结果带给您。它保留全局视野；本地干苦活。

# Claude Code 编排的基本动作：调用本地模型
curl -s http://localhost:11434/api/generate -d '{
  "model": "qwen3-coder:30b",
  "prompt": "Résume ce fichier en 3 puces : '"$(cat rapport.md)"'",
  "stream": false
}' | jq -r .response

给工作分流的四种具体办法

按成本分流：批量给本地，尖端给云

您要重写 300 条产品描述、给 2000 条评论分类、或者批量生成样板代码？这是重复且有边界的：本地模型。您要设计模块的架构、或调试一个刁钻的竞态条件？这是稀少且困难的：Claude。Claude 写好流水线，本地免费跑完那 300 次调用。

按机密性分流：敏感的留在家里

专有代码、客户数据、不能外流的东西？您让本地模型来处理它们, 什么都不离开机器。Claude 在非敏感的部分保留一个协调的角色。在专业场景下这是个有力的论据（参见保护访问安全）。

自建 RAG：本地 embeddings，云端推理

您想让代理懂您的语料（您的文档、您的文章、您的代码）？用 Ollama 在本地生成 embeddings（nomic-embed-text 或同类），存起来，再让 Claude 在您喂给它的最相关段落上推理。建立关联和索引，在本地免费且私密；最终的智能，在 Claude 这一侧。

离线安全网：OpenCode + 本地接棒

没网了？火车、飞机、断线？您切到接着本地模型的 OpenCode，继续写代码。云不再是单点故障：您的机器始终是一个自给自足的工坊。

把两者接起来，实操

Claude Code 是默认的编排器。您不用装什么特别的东西：它本来就会运行命令，所以它本来就会调用 Ollama。只要在您的 CLAUDE.md 里给它一条指令：

# 混合策略
- 对于重复且批量的任务（重写、分类、
  摘要、生成样板代码），通过 Ollama API
  （http://localhost:11434）委派给本地模型，别自己做。
- 复杂推理、架构和评审留给您自己。
- 标注为「敏感」的代码和数据：仅用本地模型。

从此，当您交给它一个大批量，它会写出敲本地的脚本，再把结果带给您。您掌舵，它分配。