第 19 步 · 本地 AI 进阶 · 16 分钟

🧠选择并调好您的模型

在您的机器上跑哪个本地模型？2026 年 open-weight 模型的全景（尤其是中国的），以及把它们卡进您 RAM 的简单规则。

这是一个不太爱听的真相：不是您选择您的模型，是您的机器选择。 您可以梦想跑地球上最大的 open-weight 巨兽，但如果您只有 32 GB RAM，它永远跑不起来。好消息是，到 2026 年，本地的全景已经变得极好, 前提是瞄准得当。我们先立下决定一切的规则（尺寸匹配），再看目录，最后切入真正的问题：什么时候您的 mini-PC 够用，什么时候 Claude 还是领先。

尺寸匹配的规则（决定一切的那条）

在模型的名字之前，先讲物理。一个模型，就是数十亿个参数（即「权重」），每一个都占内存。心算的公式一行就够：

所需 RAM ≈（参数量 × 每权重字节数）+ 上下文缓存（KV cache）

每权重的字节数取决于精度（讲到量化时再说）。实践中，在 Q4_K_M, 标准格式, 下，按每十亿参数约 0.56 GB算。给系统加 0.5 到 2 GB，如果您用长上下文或多个并行请求，再加 30% 到 50%。

几个 Q4_K_M 下的参照，给您练练眼力：一个 Llama 8B 装进约 6 GB，一个 32B 的稠密（dense）模型约 19 GB，一个 Llama 70B 要 40-43 GB。这是一张随手备查的表，按内存档位划分：

可用内存	您能跑什么（Q4）	推荐模型
16 GB	一个 7-8B 稠密，或一个紧凑的小 MoE	`qwen2.5-coder:7b`
32 GB	一个 30B Q4，轻松 ✅	`qwen3-coder:30b`
64 GB	一个 70B Q4/Q5，或 GLM-4.5-Air	到这儿，本地开始动真格了
96 GB +	长上下文的 KV 余量，量化得当的大 MoE	随您挑
250 GB +	那些巨兽（Qwen3-Coder 480B、GLM-4.6、Kimi）	仅限工作站

捷径：让工具替您做尺寸匹配

刚才立下的整条规则（数 GB、掂量量化、认出 MoE），有个开源小工具两秒钟就替您算完：llmfit（MIT 许可，仓库 AlexsJones/llmfit）。它扫描您的机器（RAM、CPU 核心、VRAM、多 GPU）和已装的运行时（Ollama、llama.cpp、LM Studio、MLX、Docker Model Runner），跟一份模型和量化的目录交叉比对，给您一个打过分的排名：哪些装得下、哪些跑得快、该瞄准哪个量化。免得白白拉一个 20 GB 的模型回来。

安装它

用您惯用的包管理器，按您的系统来：

# macOS / Linux（Homebrew）
brew install AlexsJones/llmfit/llmfit
# macOS / Linux（快速脚本）
curl -fsSL https://llmfit.axjns.dev/install.sh | sh
# Windows（Scoop）
scoop install llmfit
# 什么都不长期安装：Docker
docker run ghcr.io/alexsjones/llmfit

跑分析

不带参数，您会得到一个交互式终端界面（外加一个 web 仪表盘，在 http://<机器IP>:8787）。想要纯表格或便于脚本处理的 JSON？选项都在。

llmfit              # 交互界面 + web 仪表盘
llmfit --cli        # 终端里的经典表格
llmfit recommend --json --use-case coding --limit 3   # 代码场景前 3，输出 JSON

买之前就能用的模式

llmfit 还能模拟一台（还）不属于您的配置。下单前在 32 和 64 GB 之间犹豫？问它每个档位会解锁什么：

llmfit --memory=24G --ram=64G --cpu-cores=8 fit

--ram = 总 RAM，--memory = GPU 的 VRAM。让您靠真实数字而不是感觉来拍板。这就是开头那张「按内存档位」的表，但是按您的硬件算出来的。

2026 年的模型全景

今年的标志性事实：中国的实验室主导着 open-weight。 两种有用的轮廓浮现出来。巨型 MoE（总参数 ≈1 万亿、约 30B 激活）面向云端或工作站。还有紧凑型 MoE（总约 30B、约 3B 激活），它们才真正能在 mini-PC 上跑。我们关心的就是第二个家族。

以下是面向本地机器的现实选择：

模型	类型 / 大小	干什么	您跑得动吗？
Qwen3-Coder 30B	MoE，30B 总 / 3.3B 激活	代码、重构、调试、256K 上下文	✅ 32 GB 起, mini-PC 的最佳选择
Qwen2.5-Coder 7B/14B/32B	稠密	自动补全（FIM）、补全	✅ 视 RAM 而定（7B 从 16 GB 起）
GLM-4.5-Air	MoE，约 106B	本地能跑的现实版 GLM	⚠️ 如果您有 64-96 GB
Gemma 4	MoE，约 26B（Google）	一个诚恳的非中国起点	✅ 在一台像样的机器上
GLM-4.6	约 357B，MIT 许可证	在真实代码上达到 Claude Sonnet 4.x 水平	❌ 工作站 / API
DeepSeek-V3.2	MoE + 稀疏注意力	顶级「智力」，长上下文极佳	❌ 对 mini-PC 太大
Kimi K2.6（Moonshot）	1000B MoE / 32B 激活	open-weight 智能体基准之王	❌ API / 大工作站

在 mini-PC 上首选就是 qwen3-coder:30b，毫不犹豫。后台跑的自动补全，qwen2.5-coder:14b 或 32b 都很完美。而如果您有一台配置不错的机器（64-96 GB），GLM-4.5-Air 就是那个装得下的 GLM。

把量化讲清楚

您看到过像 Q4_K_M 这样的名字。来解码一下。GGUF 是本地模型的文件格式，后缀表示精度：每个权重保留多少比特。比特越少 = 文件越轻 = 装进越少的 RAM。代价是质量略有损失。

等级	质量	何时使用
`Q8_0`	近乎完美	对代码很少值得（太重）
`Q6_K` / `Q5_K_M`	极佳	关键推理，如果您有内存余量
`Q4_K_M`	非常好	事实上的标准, 您的默认选择
`< Q4`	可见的退化	只在内存逼您时

Q4_K_M 大约只有原始 FP16 模型的 28% 重，而损失仅约 2-3%。专门对代码而言，它经得起考验, 升到 Q5 或 Q6 并不会让代码生成有可感知的改善。您只有在被迫时才会降到 Q4 以下，而且您会很快察觉（代码和推理是最先遭殃的）。

在 Ollama 里接上正确的量化

实践中很简单：在 Ollama 里，标签（tag）已经编码了量化。您通过把精度写进名字里来选择它。

按正确的量化拉取模型

标签后面的后缀就是量化。不带后缀的话，Ollama 取一个默认值（通常是 Q4_K_M）。

# 默认值（一般是 Q4_K_M）, 开始用很完美
ollama pull qwen3-coder:30b
# 或者显式的量化，如果您想确保万无一失
ollama pull qwen3-coder:30b-a3b-q4_K_M

把上下文卡到真实需要上

上下文耗 RAM（那个出了名的 KV cache）。默认 OLLAMA_CONTEXT_LENGTH 是 2048，对代码来说低得离谱。但把它调得太高会撑大 RAM，可能把您推进 swap, 这是「Ollama 很慢」的头号原因。把 num_ctx 设到任务真正需要的量，别条件反射地拉满。

说实话：本地还是 Claude？

我们不会给您卖梦。到 2026 年中，本地的状况就在这里，不加滤镜。

对于边界清晰且私密的任务, 短窗口生成、重构、自动补全、定点调试, 本地真的有竞争力。它私密、按使用免费，而且在基准上的差距已经明显收窄（GLM-4.6 紧贴 Claude Sonnet 4.x，Kimi K2.6 在智能体上很硬）。还有一点常被忽略：一个 open-weight 模型在好的框架里（一个配置得当的 OpenCode）表现，比在裸聊天里好得多。

但有两个局限要说清楚：

绝对的顶点仍然是 Claude。 Claude Fable 5 在 SWE-bench Verified 上约 ~95%，明显高于 open-weight 的集群（~80%）。
最好的开放模型在 mini-PC 上跑不了。 Kimi（1000B）、GLM-5.2、MiniMax M3, 那是 API 或工作站的事。本地能装下的（Qwen3-Coder 30B、GLM-4.5-Air）在长链智能体可靠性和工具使用上低一档。