⚡混合:云 + 本地
两个世界中最好的部分。Claude Code 掌舵, 它规划、推理、复核, 把重复的粗活交给本地模型。私密、省钱,而且效率惊人。
现在您手里有两个世界:一个智能惊人的云端代理(Claude Code),以及一些在您家免费运行的模型(Ollama)。错误的问题是「选哪个?」。真正的答案是:两个,同时,各就各位。
这就是混合搭配。而核心角色落在 Claude Code,担任总指挥。它不亲自做完一切, 它决定谁做什么,并把大批量的工作委派给本地模型。
为什么混着用,而不是二选一
两个世界有着相反的长处,而这恰恰使它们互补:
- **云端(Claude)**在难的推理、长任务、可靠的 tool use、架构上无可匹敌。但每次调用都要钱,而且您的数据流向第三方。
- 本地(Ollama)按使用免费、私密、离线可用,对边界清晰且重复的任务来说足够好。但它在长链智能体和尖端推理上力不从心(我们在 选择您的模型 里直言不讳地讲过)。
混合搭配取两者之长:您把尖端智能留在它真正要紧的地方,把成本和数据外泄压在其余的一切上, 也就是 80% 的量。
Claude Code 当编排器:它怎么运作
让这成为可能的关键:Claude Code 能运行命令。而 Ollama 在 http://localhost:11434 上暴露了一个极简单的本地 API。所以 Claude Code 可以调用您的本地模型, 通过一个 curl、一个脚本或一个小工具, 就像它调用任何命令那样。
具体来说,您告诉 Claude:「这个批量任务别自己做,通过 Ollama API 委派给本地模型」。它写出在您的文件上循环的脚本,对每个文件敲本地模型,再把整合好的结果带给您。它保留全局视野;本地干苦活。
# Claude Code 编排的基本动作:调用本地模型
curl -s http://localhost:11434/api/generate -d '{
"model": "qwen3-coder:30b",
"prompt": "Résume ce fichier en 3 puces : '"$(cat rapport.md)"'",
"stream": false
}' | jq -r .response
给工作分流的四种具体办法
按成本分流:批量给本地,尖端给云
您要重写 300 条产品描述、给 2000 条评论分类、或者批量生成样板代码?这是重复且有边界的:本地模型。您要设计模块的架构、或调试一个刁钻的竞态条件?这是稀少且困难的:Claude。Claude 写好流水线,本地免费跑完那 300 次调用。
按机密性分流:敏感的留在家里
专有代码、客户数据、不能外流的东西?您让本地模型来处理它们, 什么都不离开机器。Claude 在非敏感的部分保留一个协调的角色。在专业场景下这是个有力的论据(参见 保护访问安全)。
自建 RAG:本地 embeddings,云端推理
您想让代理懂您的语料(您的文档、您的文章、您的代码)?用 Ollama 在本地生成 embeddings(nomic-embed-text 或同类),存起来,再让 Claude 在您喂给它的最相关段落上推理。建立关联和索引,在本地免费且私密;最终的智能,在 Claude 这一侧。
离线安全网:OpenCode + 本地接棒
没网了?火车、飞机、断线?您切到接着本地模型的 OpenCode,继续写代码。云不再是单点故障:您的机器始终是一个自给自足的工坊。
把两者接起来,实操
Claude Code 是默认的编排器。您不用装什么特别的东西:它本来就会运行命令,所以它本来就会调用 Ollama。只要在您的 CLAUDE.md 里给它一条指令:
# 混合策略
- 对于重复且批量的任务(重写、分类、
摘要、生成样板代码),通过 Ollama API
(http://localhost:11434)委派给本地模型,别自己做。
- 复杂推理、架构和评审留给您自己。
- 标注为「敏感」的代码和数据:仅用本地模型。
从此,当您交给它一个大批量,它会写出敲本地的脚本,再把结果带给您。您掌舵,它分配。