跳到正文
minimachine.
← 学习路径
第 20 步 · 本地 AI 进阶 · 14 分钟

混合:云 + 本地

两个世界中最好的部分。Claude Code 掌舵, 它规划、推理、复核, 把重复的粗活交给本地模型。私密、省钱,而且效率惊人。


现在您手里有两个世界:一个智能惊人的云端代理(Claude Code),以及一些在您家免费运行的模型(Ollama)。错误的问题是「选哪个?」。真正的答案是:两个,同时,各就各位。

这就是混合搭配。而核心角色落在 Claude Code,担任总指挥。它不亲自做完一切, 它决定什么,并把大批量的工作委派给本地模型。

Claude Code 编排者 · 掌控全局 硬核推理 批量 · 私有 Claude 模型(云端) 规划、架构、棘手调试, 复审、长任务 Ollama(本地) 样板代码、批量重构, 摘要、分类、嵌入 你的项目 能跑的代码
fig.混合:Claude Code 把难的推理留在云端这一侧,把重复的粗活通过 Ollama 发给本地模型。一切都汇聚到您的项目。

为什么混着用,而不是二选一

两个世界有着相反的长处,而这恰恰使它们互补:

  • **云端(Claude)**在难的推理、长任务、可靠的 tool use、架构上无可匹敌。但每次调用都要钱,而且您的数据流向第三方。
  • 本地(Ollama按使用免费、私密、离线可用,对边界清晰且重复的任务来说足够好。但它在长链智能体和尖端推理上力不从心(我们在 选择您的模型 里直言不讳地讲过)。

混合搭配取两者之长:您把尖端智能留在它真正要紧的地方,把成本和数据外泄压在其余的一切上, 也就是 80% 的量。

Claude Code 当编排器:它怎么运作

让这成为可能的关键:Claude Code 能运行命令。而 Ollama 在 http://localhost:11434 上暴露了一个极简单的本地 API。所以 Claude Code 可以调用您的本地模型, 通过一个 curl、一个脚本或一个小工具, 就像它调用任何命令那样。

具体来说,您告诉 Claude:「这个批量任务别自己做,通过 Ollama API 委派给本地模型」。它写出在您的文件上循环的脚本,对每个文件敲本地模型,再把整合好的结果带给您。它保留全局视野;本地干苦活。

# Claude Code 编排的基本动作:调用本地模型
curl -s http://localhost:11434/api/generate -d '{
  "model": "qwen3-coder:30b",
  "prompt": "Résume ce fichier en 3 puces : '"$(cat rapport.md)"'",
  "stream": false
}' | jq -r .response

给工作分流的四种具体办法

按成本分流:批量给本地,尖端给云

您要重写 300 条产品描述、给 2000 条评论分类、或者批量生成样板代码?这是重复且有边界的:本地模型。您要设计模块的架构、或调试一个刁钻的竞态条件?这是稀少且困难的:Claude。Claude 写好流水线,本地免费跑完那 300 次调用。

按机密性分流:敏感的留在家里

专有代码、客户数据、不能外流的东西?您让本地模型来处理它们, 什么都不离开机器。Claude 在非敏感的部分保留一个协调的角色。在专业场景下这是个有力的论据(参见 保护访问安全)。

自建 RAG:本地 embeddings,云端推理

您想让代理懂您的语料(您的文档、您的文章、您的代码)?用 Ollama 在本地生成 embeddingsnomic-embed-text 或同类),存起来,再让 Claude 在您喂给它的最相关段落上推理。建立关联和索引,在本地免费且私密;最终的智能,在 Claude 这一侧。

离线安全网:OpenCode + 本地接棒

没网了?火车、飞机、断线?您切到接着本地模型的 OpenCode,继续写代码。云不再是单点故障:您的机器始终是一个自给自足的工坊。

把两者接起来,实操

Claude Code 是默认的编排器。您不用装什么特别的东西:它本来就会运行命令,所以它本来就会调用 Ollama。只要在您的 CLAUDE.md 里给它一条指令:

# 混合策略
- 对于重复且批量的任务(重写、分类、
  摘要、生成样板代码),通过 Ollama API
  (http://localhost:11434)委派给本地模型,别自己做。
- 复杂推理、架构和评审留给您自己。
- 标注为「敏感」的代码和数据:仅用本地模型。

从此,当您交给它一个大批量,它会写出敲本地的脚本,再把结果带给您。您掌舵,它分配。