跳到正文
minimachine.
← 学习路径
第 19 步 · 本地 AI 进阶 · 16 分钟

🧠选择并调好您的模型

在您的机器上跑哪个本地模型?2026 年 open-weight 模型的全景(尤其是中国的),以及把它们卡进您 RAM 的简单规则。


这是一个不太爱听的真相:不是您选择您的模型,是您的机器选择。 您可以梦想跑地球上最大的 open-weight 巨兽,但如果您只有 32 GB RAM,它永远跑不起来。好消息是,到 2026 年,本地的全景已经变得极好, 前提是瞄准得当。我们先立下决定一切的规则(尺寸匹配),再看目录,最后切入真正的问题:什么时候您的 mini-PC 够用,什么时候 Claude 还是领先。

尺寸匹配的规则(决定一切的那条)

在模型的名字之前,先讲物理。一个模型,就是数十亿个参数(即「权重」),每一个都占内存。心算的公式一行就够:

所需 RAM ≈(参数量 × 每权重字节数)+ 上下文缓存(KV cache)

每权重的字节数取决于精度(讲到量化时再说)。实践中,在 Q4_K_M, 标准格式, 下,按每十亿参数约 0.56 GB算。给系统加 0.5 到 2 GB,如果您用长上下文或多个并行请求,再加 30% 到 50%

几个 Q4_K_M 下的参照,给您练练眼力:一个 Llama 8B 装进约 6 GB,一个 32B 的稠密(dense)模型约 19 GB,一个 Llama 70B 要 40-43 GB。这是一张随手备查的表,按内存档位划分:

可用内存您能跑什么(Q4)推荐模型
16 GB一个 7-8B 稠密,或一个紧凑的小 MoEqwen2.5-coder:7b
32 GB一个 30B Q4,轻松 ✅qwen3-coder:30b
64 GB一个 70B Q4/Q5,或 GLM-4.5-Air到这儿,本地开始动真格了
96 GB +长上下文的 KV 余量,量化得当的大 MoE随您挑
250 GB +那些巨兽(Qwen3-Coder 480B、GLM-4.6、Kimi)仅限工作站

捷径:让工具替您做尺寸匹配

刚才立下的整条规则(数 GB、掂量量化、认出 MoE),有个开源小工具两秒钟就替您算完:llmfit(MIT 许可,仓库 AlexsJones/llmfit)。它扫描您的机器(RAM、CPU 核心、VRAM、多 GPU)和已装的运行时(Ollama、llama.cpp、LM Studio、MLX、Docker Model Runner),跟一份模型和量化的目录交叉比对,给您一个打过分的排名:哪些装得下、哪些跑得、该瞄准哪个量化。免得白白拉一个 20 GB 的模型回来。

安装它

用您惯用的包管理器,按您的系统来:

# macOS / Linux(Homebrew)
brew install AlexsJones/llmfit/llmfit
# macOS / Linux(快速脚本)
curl -fsSL https://llmfit.axjns.dev/install.sh | sh
# Windows(Scoop)
scoop install llmfit
# 什么都不长期安装:Docker
docker run ghcr.io/alexsjones/llmfit

跑分析

不带参数,您会得到一个交互式终端界面(外加一个 web 仪表盘,在 http://<机器IP>:8787)。想要纯表格或便于脚本处理的 JSON?选项都在。

llmfit              # 交互界面 + web 仪表盘
llmfit --cli        # 终端里的经典表格
llmfit recommend --json --use-case coding --limit 3   # 代码场景前 3,输出 JSON

2026 年的模型全景

今年的标志性事实:中国的实验室主导着 open-weight。 两种有用的轮廓浮现出来。巨型 MoE(总参数 ≈1 万亿、约 30B 激活)面向云端或工作站。还有紧凑型 MoE(总约 30B、约 3B 激活),它们才真正能在 mini-PC 上跑。我们关心的就是第二个家族。

以下是面向本地机器的现实选择:

模型类型 / 大小干什么您跑得动吗?
Qwen3-Coder 30BMoE,30B 总 / 3.3B 激活代码、重构、调试、256K 上下文✅ 32 GB 起, mini-PC 的最佳选择
Qwen2.5-Coder 7B/14B/32B稠密自动补全(FIM)、补全✅ 视 RAM 而定(7B 从 16 GB 起)
GLM-4.5-AirMoE,约 106B本地能跑的现实版 GLM⚠️ 如果您有 64-96 GB
Gemma 4MoE,约 26B(Google)一个诚恳的非中国起点✅ 在一台像样的机器上
GLM-4.6约 357B,MIT 许可证在真实代码上达到 Claude Sonnet 4.x 水平❌ 工作站 / API
DeepSeek-V3.2MoE + 稀疏注意力顶级「智力」,长上下文极佳❌ 对 mini-PC 太大
Kimi K2.6(Moonshot)1000B MoE / 32B 激活open-weight 智能体基准之王❌ API / 大工作站

在 mini-PC 上首选就是 qwen3-coder:30b,毫不犹豫。后台跑的自动补全,qwen2.5-coder:14b32b 都很完美。而如果您有一台配置不错的机器(64-96 GB),GLM-4.5-Air 就是那个装得下的 GLM。

把量化讲清楚

您看到过像 Q4_K_M 这样的名字。来解码一下。GGUF 是本地模型的文件格式,后缀表示精度:每个权重保留多少比特。比特越少 = 文件越轻 = 装进越少的 RAM。代价是质量略有损失。

等级质量何时使用
Q8_0近乎完美对代码很少值得(太重)
Q6_K / Q5_K_M极佳关键推理,如果您有内存余量
Q4_K_M非常好事实上的标准, 您的默认选择
< Q4可见的退化只在内存逼您时

Q4_K_M 大约只有原始 FP16 模型的 28% 重,而损失仅约 2-3%。专门对代码而言,它经得起考验, 升到 Q5 或 Q6 并不会让代码生成有可感知的改善。您只有在被迫时才会降到 Q4 以下,而且您会很快察觉(代码和推理是最先遭殃的)。

在 Ollama 里接上正确的量化

实践中很简单:在 Ollama 里,标签(tag)已经编码了量化。您通过把精度写进名字里来选择它。

按正确的量化拉取模型

标签后面的后缀就是量化。不带后缀的话,Ollama 取一个默认值(通常是 Q4_K_M)。

# 默认值(一般是 Q4_K_M), 开始用很完美
ollama pull qwen3-coder:30b
# 或者显式的量化,如果您想确保万无一失
ollama pull qwen3-coder:30b-a3b-q4_K_M

把上下文卡到真实需要上

上下文耗 RAM(那个出了名的 KV cache)。默认 OLLAMA_CONTEXT_LENGTH2048,对代码来说低得离谱。但把它调得太高会撑大 RAM,可能把您推进 swap, 这是「Ollama 很慢」的头号原因。把 num_ctx 设到任务真正需要的量,别条件反射地拉满。

说实话:本地还是 Claude?

我们不会给您卖梦。到 2026 年中,本地的状况就在这里,不加滤镜。

对于边界清晰且私密的任务, 短窗口生成、重构、自动补全、定点调试, 本地真的有竞争力。它私密、按使用免费,而且在基准上的差距已经明显收窄(GLM-4.6 紧贴 Claude Sonnet 4.x,Kimi K2.6 在智能体上很硬)。还有一点常被忽略:一个 open-weight 模型在好的框架里(一个配置得当的 OpenCode)表现,比在裸聊天里好得多。

但有两个局限要说清楚:

  • 绝对的顶点仍然是 Claude。 Claude Fable 5 在 SWE-bench Verified 上约 ~95%,明显高于 open-weight 的集群(~80%)。
  • 最好的开放模型在 mini-PC 上跑不了。 Kimi(1000B)、GLM-5.2、MiniMax M3, 那是 API 或工作站的事。本地能装下的(Qwen3-Coder 30B、GLM-4.5-Air)在长链智能体可靠性和工具使用上低一档。