第 18 步 · 本地 AI 简单 · 12 分钟

🦙Ollama 与本地模型

在您自己家跑真正的 AI 模型，免费且私密。安装、第一个模型，以及如何把它接到您的编码代理上。

到目前为止，您的编码代理一直在跟云端的模型对话。现在我们要把真正的 AI 模型跑直接在您的 mini-PC 上。而让这件事毫无痛苦地成为可能的，就是 Ollama。

Ollama 是在本地运行 open-weight LLM 最简单的方式。一条命令装好，一条命令下载模型，然后您就有了一个监听 11434 端口的本地 API，说的是 OpenAI 的格式, 因此几乎兼容市面上所有工具。三个无需多言的好处：它私密（什么都不离开机器），它免费，而且它能离线工作。

安装 Ollama

一行。脚本会安装二进制并把它作为系统服务启动, 它在后台运行，随时待命。

curl -fsSL https://ollama.com/install.sh | sh

就这样。Ollama 现在监听在 http://localhost:11434。

您的第一个模型

我们从又小又实用的开始：qwen2.5-coder:7b，一个 70 亿参数的代码模型，一个能在普通机器上跑得动的好起点。

ollama run qwen2.5-coder:7b

首次启动会下载模型（几个 GB，耐心点）。之后您就直接进到终端里的一个聊天界面：问它个问题、让它写段代码、确认它能回应。输入 /bye 退出。

看看您有什么

ollama list   # 所有已下载的模型，以及它们的大小

看看什么在跑

ollama ps     # 此刻、现在加载在内存里的模型

做清理

ollama rm qwen2.5-coder:7b   # 删掉一个模型，腾出空间

把它接到您的编码代理上

正是在这里，两个代理真正分道扬镳。选您的标签页，因为两边的现实并不一样。

Claude Code 是为在 Anthropic 的 Claude 模型上运行而设计的。 它不会原生接到本地 Ollama 模型上, 没有什么神奇的开关能做到这点，我也不会给您编一个出来。

所以要做完全本地的编码代理，我们用的是 OpenCode（旁边那个标签页）。而 Claude Code 始终是您的云端反应堆：大工程、长链推理、顶级的可靠性。

这并不意味着 Ollama 在 Claude Code 旁边就没用了。您完全可以把 Ollama 的本地 API 留给附带的任务：embeddings、快速分类、摘要、那些敲 http://localhost:11434 的小脚本, 不花一分钱，也不把您的数据送往别处。云端管大脑，本地管水管活。

这是通往 100% 本地编码代理的康庄大道。 OpenCode 原生就跟 Ollama 对话。您把 Ollama 声明为一个提供方，指向本地 API：

http://localhost:11434/v1

具体来说，您在 OpenCode 里配置 Ollama provider（通过 /login 或您的配置文件），然后用 /models 选择本地模型, 例如 qwen2.5-coder。从此，您的代理思考、读您的代码、写文件，没有一个字节离开机器。免费、私密、离线。这正是 OpenCode 存在的场景。

真正重要的三个设置

Ollama 装好就能用，但当您想压榨它时，三个环境变量带来天壤之别。您把它们放进服务的环境里（systemctl edit ollama 然后 Environment="..."）。

要刻进脑子里的陷阱

十有八九，当有人说「Ollama 在我这儿很慢」，罪魁祸首是上下文设得太高。

原因如下。上下文窗口越大，KV 缓存吃的 RAM 越多, 而且涨得很快。如果您在一台勉强够用的机器上要一个巨大的上下文，您就会溢出到交换分区（swap）（拿磁盘当后备 RAM），到那时一切都崩了：模型卡顿，每个 token 都要等上一辈子，您以为您的硬件不行，其实是它被憋住了。

规则是：把上下文设成任务需要的量，而不是最大值。 一个小脚本？4096 就够。一个多文件的大重构？调高，但盯着您的 RAM（ollama ps 会告诉您实际加载的大小）。正确的设置，是能把活干完的最小值。