跳到正文
minimachine.
← 学习路径
第 18 步 · 本地 AI 简单 · 12 分钟

🦙Ollama 与本地模型

在您自己家跑真正的 AI 模型,免费且私密。安装、第一个模型,以及如何把它接到您的编码代理上。


到目前为止,您的编码代理一直在跟云端的模型对话。现在我们要把真正的 AI 模型跑直接在您的 mini-PC 上。而让这件事毫无痛苦地成为可能的,就是 Ollama

Ollama 是在本地运行 open-weight LLM 最简单的方式。一条命令装好,一条命令下载模型,然后您就有了一个监听 11434 端口的本地 API,说的是 OpenAI 的格式, 因此几乎兼容市面上所有工具。三个无需多言的好处:它私密(什么都不离开机器),它免费,而且它能离线工作。

安装 Ollama

一行。脚本会安装二进制并把它作为系统服务启动, 它在后台运行,随时待命。

curl -fsSL https://ollama.com/install.sh | sh

就这样。Ollama 现在监听在 http://localhost:11434

您的第一个模型

我们从又小又实用的开始:qwen2.5-coder:7b,一个 70 亿参数的代码模型,一个能在普通机器上跑得动的好起点。

ollama run qwen2.5-coder:7b

首次启动会下载模型(几个 GB,耐心点)。之后您就直接进到终端里的一个聊天界面:问它个问题、让它写段代码、确认它能回应。输入 /bye 退出。

看看您有什么

ollama list   # 所有已下载的模型,以及它们的大小

看看什么在跑

ollama ps     # 此刻、现在加载在内存里的模型

做清理

ollama rm qwen2.5-coder:7b   # 删掉一个模型,腾出空间

把它接到您的编码代理上

正是在这里,两个代理真正分道扬镳。选您的标签页,因为两边的现实并不一样。

Claude Code 是为在 Anthropic 的 Claude 模型上运行而设计的。 它不会原生接到本地 Ollama 模型上, 没有什么神奇的开关能做到这点,我也不会给您编一个出来。

所以要做完全本地的编码代理,我们用的是 OpenCode(旁边那个标签页)。而 Claude Code 始终是您的云端反应堆:大工程、长链推理、顶级的可靠性。

这并不意味着 Ollama 在 Claude Code 旁边就没用了。您完全可以把 Ollama 的本地 API 留给附带的任务:embeddings、快速分类、摘要、那些敲 http://localhost:11434 的小脚本, 不花一分钱,也不把您的数据送往别处。云端管大脑,本地管水管活。

真正重要的三个设置

Ollama 装好就能用,但当您想压榨它时,三个环境变量带来天壤之别。您把它们放进服务的环境里(systemctl edit ollama 然后 Environment="...")。

要刻进脑子里的陷阱

十有八九,当有人说「Ollama 在我这儿很慢」,罪魁祸首是上下文设得太高

原因如下。上下文窗口越大,KV 缓存吃的 RAM 越多, 而且涨得很快。如果您在一台勉强够用的机器上要一个巨大的上下文,您就会溢出到交换分区(swap)(拿磁盘当后备 RAM),到那时一切都崩了:模型卡顿,每个 token 都要等上一辈子,您以为您的硬件不行,其实是它被憋住了。

规则是:把上下文设成任务需要的量,而不是最大值。 一个小脚本?4096 就够。一个多文件的大重构?调高,但盯着您的 RAM(ollama ps 会告诉您实际加载的大小)。正确的设置,是能把活干完的最小值。