LLM（大语言模型）是什么？

大语言模型（Large Language Model）：一种在海量文本上训练的神经网络，通过预测下一个词来写作、总结、编程、回答。它是 Claude 这类智能体背后的引擎。

Token（词元）是什么？

模型处理文本的单位：既不是字母，也不完全是单词，而是片段（常是一个音节或词的一部分）。上下文大小、以及云端的计费，都以 token 计。经验值：约 1 个 token ≈ 4 个字符。

上下文窗口是什么？

模型一次能「看到」的文本量：你的请求、文件、历史记录，以 token 计。超出后，模型会忘掉开头。窗口越大，占用的内存越多。

模型内部的「旋钮」，在训练时被调好。以十亿计（一个「30B」模型有 300 亿个）。参数越多，模型越强……运行时需要的内存也越多。

通过用更低精度存储参数来压缩模型，使其占用更少内存。质量损失通常难以察觉，正是它让本地 AI 在迷你 PC 上成为可能（一个 30B 模型从约 60 GB 降到约 20 GB）。

MoE（专家混合）是什么？

一种「聪明」的模型，拆成若干专门的子网络（即「专家」），每个 token 只激活其中一小部分。结果是：纸面上很大，运行时却又快又省。非常适合本地 AI。

Embeddings（向量嵌入）是什么？

把一段文本变成一串能捕捉其含义的数字（一个「向量」）。含义相近的两段文本，向量也相近：这是语义检索和 RAG 的基础。

RAG（检索增强生成）是什么？

检索增强生成。先从你的文档里找出相关段落（借助 embeddings），再交给模型，让它据此作答。对付幻觉的经典办法。

让一个已经训练好的模型「跑起来」生成回答。与训练不同：这里只是使用模型。你的迷你 PC 生成文本时做的就是推理。

Prompt（提示词）是什么？

你给模型的指令：问题、要求、上下文。把 prompt 写好（精确、给例子、划定范围）会从根本上改变回答的质量。

在你自己的数据上对现有模型做轻量再训练，使其专门化。强大但成本高：多数场景下，一个好的 prompt 或 RAG 就够了，且便宜得多。

模型一本正经地说出错误内容：不存在的函数、编造的来源。它并非「撒谎」，而是在预测看似合理的文本。所以铁律是：要核实，尤其是代码。

术语表

本指南里的全部技术词汇，用大白话讲清楚。不为术语而术语：只讲跟上内容所需的那些。各篇文章里带点状下划线的词都指向这里。

AI 与模型

↑ 分类

参数: 模型内部的「旋钮」，在训练时被调好。以十亿计（一个「30B」模型有 300 亿个）。参数越多，模型越强……运行时需要的内存也越多。
幻觉: 模型一本正经地说出错误内容：不存在的函数、编造的来源。它并非「撒谎」，而是在预测看似合理的文本。所以铁律是：要核实，尤其是代码。
开放权重模型: 一种把「权重」（训练得到的参数）公开、可自由下载的模型。你可以在自己机器上运行它，无需申请许可：正是它让本地 AI 成为可能。注意，「开放权重」不等于「开源」（见下）。
开源（对比开放权重）: 对一个模型而言，真正的「开源」意味着把一切都公开：不仅是权重，还有训练代码、数据和一份自由许可证。但实际上，多数所谓「开放」的模型（Qwen、Llama……）是开放权重，而非开源：你拿到的是权重，很少有完整配方。这是常见的说法简化，但其中的区别很重要。
量化: 通过用更低精度存储参数来压缩模型，使其占用更少内存。质量损失通常难以察觉，正是它让本地 AI 在迷你 PC 上成为可能（一个 30B 模型从约 60 GB 降到约 20 GB）。
前沿模型: 当下最先进、处在 AI 能力最前沿的那批模型（Claude、GPT、Gemini……）。它们体量巨大，跑在云端，而非你的迷你 PC 上。在混合方案里，常由其中之一充当编排者，而更小的本地模型负责其余工作。
上下文窗口: 模型一次能「看到」的文本量：你的请求、文件、历史记录，以 token 计。超出后，模型会忘掉开头。窗口越大，占用的内存越多。
推理: 让一个已经训练好的模型「跑起来」生成回答。与训练不同：这里只是使用模型。你的迷你 PC 生成文本时做的就是推理。
微调: 在你自己的数据上对现有模型做轻量再训练，使其专门化。强大但成本高：多数场景下，一个好的 prompt 或 RAG 就够了，且便宜得多。
Embeddings（向量嵌入）: 把一段文本变成一串能捕捉其含义的数字（一个「向量」）。含义相近的两段文本，向量也相近：这是语义检索和 RAG 的基础。
LLM（大语言模型）: 大语言模型（Large Language Model）：一种在海量文本上训练的神经网络，通过预测下一个词来写作、总结、编程、回答。它是 Claude 这类智能体背后的引擎。
MoE（专家混合）: 一种「聪明」的模型，拆成若干专门的子网络（即「专家」），每个 token 只激活其中一小部分。结果是：纸面上很大，运行时却又快又省。非常适合本地 AI。
Prompt（提示词）: 你给模型的指令：问题、要求、上下文。把 prompt 写好（精确、给例子、划定范围）会从根本上改变回答的质量。
RAG（检索增强生成）: 检索增强生成。先从你的文档里找出相关段落（借助 embeddings），再交给模型，让它据此作答。对付幻觉的经典办法。
Token（词元）: 模型处理文本的单位：既不是字母，也不完全是单词，而是片段（常是一个音节或词的一部分）。上下文大小、以及云端的计费，都以 token 计。经验值：约 1 个 token ≈ 4 个字符。

智能体

↑ 分类

编排者: 负责思考、拆分任务、并把活儿分派给其他智能体或工具的「主管」智能体。在混合方案里，它常常被留在云端（一个大模型），而本地机器负责执行。
工具调用: 智能体在「生成文本」之外能触发的能力：读写文件、执行命令、调用 API。正是工具，把一个能说会道的模型变成真正会做事的助手。
记忆文件: 智能体每次会话都会重读的文件，用来记住这个项目：约定、决策、上下文。由于它每次都从零开始，这份文件就是它白纸黑字的长期记忆。
智能体: 一个被赋予了工具（读文件、跑命令、上网搜索）的 LLM，会自己循环直到达成目标。这正是「会回答的聊天机器人」与「会动手的助手」之间的区别。
智能体循环: 智能体不断重复的循环：思考 → 行动（调用工具）→ 观察结果 → 再来一遍，直到任务完成。正是这个循环让它变得自主。
子智能体: 由主智能体派出的辅助智能体，负责某个具体任务（探查代码、做检索）。它独立干活，只回传结论，从而不让主智能体的上下文被塞满。
Hook（钩子）: 由事件触发的自动动作：例如每当智能体修改文件就跑一次 linter。钩子就是那个「当 X 发生，就做 Y」，不依赖模型是否愿意。
MCP: 模型上下文协议（Model Context Protocol）：一个开放标准，用来把工具和数据源接到智能体上，不必每次都重造连接。相当于智能体与外部世界之间的通用插口。
Skill（技能）: 你一次性教给智能体的可复用本领：一段流程、一个命令、一份存在文件里的小说明。之后只需一个词就能调用，不必每次重新解释。

硬件

↑ 分类

核显（集成显卡）: 集成在处理器里的 GPU，共用系统内存而没有自己的显存。比独立显卡慢，但省电、安静，在统一内存平台上还能加载大模型。
内存带宽: 处理器读取内存的速度。由于模型每生成一个词都要重读全部内存，它决定了文本输出的快慢（每秒 token 数）。这是人们常忘了看的「隐藏速度」。
统一内存: 处理器和 GPU 共享的一块快速内存（苹果 M 芯片、AMD Strix Halo……）。可以把其中很大一部分分配给 GPU：于是一台 64 GB 的机器能加载任何消费级显卡都装不下的模型。
CPU（处理器）: 中央处理器，机器里通用的「大脑」。对本地 AI 而言，它没你想的那么关键：任何较新的 CPU 都够用，钱不如花在内存上。
CUDA: NVIDIA 的计算平台。事实标准：几乎整个 AI 生态都优先为 CUDA 设计，所以「开箱即用」。在独显这边是最省心的路。
GPU（显卡）: 图形处理器。擅长 AI 那种大规模并行运算，能大幅加速推理。独立显卡带来速度，但受显存上限制约，还会增加噪音和功耗。
NVMe 固态硬盘: 当下最快的存储盘。在这里必不可少：把一个约 20 GB 的模型加载进内存得几乎瞬间完成。建议至少 1 TB，因为模型攒起来很快。
RAM（内存）: 机器的工作内存。对本地 AI 来说，它是头号因素：模型必须完整装进内存才能运行。内存不够，模型就加载不了，或者卡到不行。
ROCm: AMD 那边对标 CUDA 的开放方案。在每 GB 显存的价格上无可匹敌，进步很快，但支持仍粗糙一档：视显卡和工具而定，有时得自己动手折腾。
VRAM（显存）: 显卡上自带的内存。很快，但固定且有限（常为 8 到 32 GB）：模型不能超过显卡的显存。这正是统一内存所打破的那堵「墙」。

网络与访问

↑ 分类

防火墙: 决定哪些网络连接被允许进出的过滤器。配置得当（全部关闭，只开必需的），它是避免机器暴露在外的基础一环。
API: 两个软件彼此对话的「接口」。你的智能体调用云端模型的 API；你的项目对外暴露一个 API，供别的程序查询。对话的是接口，而非人。
API 密钥: 允许你的程序使用某个 API 的密码（也常是计费依据）。要当成机密对待：绝不明文写进代码，绝不推到 GitHub 上。
Cloudflare Tunnel: 一项服务，能把本地项目干净地发布到互联网上，配上真实域名和 HTTPS，且无需在路由器上开任何端口。机器主动连向 Cloudflare，而非反过来：更简单也更安全。
DNS: 互联网的电话簿：把人能读的名字（mydomain.com）翻译成机器能懂的 IP 地址。配置域名时，你调的就是 DNS。
IP 地址: 在网络上标识一台机器的编号（例如 192.168.1.20）。分内网（在你路由器下）和公网（在互联网上）：这就是访问你迷你 PC 的地址。
SSH: Secure Shell：通过终端远程操控机器的协议，全程加密。你就是靠它从笔记本上指挥迷你 PC，而无需给它接键盘和屏幕。
SSH 密钥: 一对加密密钥（一把公钥、一把私钥），用来替代 SSH 的密码。把公钥放到服务器上，私钥严加保管：免密登录，而且安全得多。
Tailscale: 一个私有的「网状」VPN，把你所有设备连进一个加密网络，无论它们在哪都像挨在一起。这是从外部访问你迷你 PC 最简单也最安全的方式。
VPN: 虚拟专用网：在互联网之上、你的设备之间建立的加密隧道。一切流量都在其中安全通过，就像这些机器处在同一个局域网里。

系统与工具

↑ 分类

仓库（repo）: 由 Git 跟踪的一个项目的「文件夹」：它的全部代码和完整历史。它存在你本机上，通常还有一份「远程」副本托管在 GitHub，用于备份和共享。
容器: 一个轻量、隔离的「盒子」，装着一个应用及其依赖，能在任何地方原样运行。比虚拟机更轻，是 Docker 的基本单位。
终端（命令行）: 你在里面敲文本命令来操控机器的窗口，不用鼠标也没有按钮。一开始让人发怵，但它最直接也最强大，更是智能体的天然主场。
CLI: 命令行界面（Command-Line Interface）：一种靠在终端里敲命令、而非点击来操控的程序。多数编码智能体（Claude Code、OpenCode）都是 CLI：轻量、可脚本化，远程使用尤为合适。
Commit（提交）: 在某一时刻为你代码拍下的带时间戳的快照，附一句描述改动的简短说明。它是 Git 历史的基本单位：随时都能回到它。
Docker: 把应用连同它所需的一切打包进一个隔离容器的工具。每个项目都活在自己的「气泡」里，不污染系统也不影响别的项目：装了、删了、重来，都不会搞坏任何东西。
Docker 镜像: 用来启动容器的固化模板：应用「开箱即用」的快照。下载一个镜像，就能据此启动任意多个一模一样的容器。
Git: 记录你代码历史的系统：每次改动（一次「commit」）都被记下，可以回退、比对、多人协作。它是不可或缺的安全网，尤其当智能体在改你的文件时。
Linux: 免费开源、跑着绝大多数服务器的操作系统。轻量、稳定、完全可用键盘操控：常开机器的理想底座。
Markdown: 一种用几个符号就能写出带格式文本的简单方式：井号表示标题，词两侧加两个星号表示加粗，短横线表示列表。本身就能直接读，之后再转成网页。它是记忆文件、README 以及几乎所有技术文档的格式。
Ollama: 在本地运行 AI 模型最简单的工具：一条命令下载模型，另一条就能跟它对话。它负责管理内存、量化，并对外提供一个本地 API 供你的项目使用。
Shell: 在终端里解释你命令的程序（bash、zsh……）。它读懂你敲的内容，把命令串起来，并执行你的脚本。
sudo: 以管理员（「超级用户」）权限执行操作的命令。当某条命令要动到系统时，就把它放在前面。须谨慎使用：有了这权限，什么都能搞坏。
systemd: Linux 上服务的总指挥。它在开机时启动你的程序，崩溃了再拉起来，并让它们全天候存活。你把智能体、隧道、各个项目都交给它。
tmux: 一个「终端复用器」：即便你断开连接，它也能让会话继续存活。远程工作时不可或缺：你通过 SSH 启动一个智能体，合上笔记本，它照常运行；重新连上时一切原样还在。
Ubuntu: 在桌面和服务器领域都最流行的 Linux 发行版。认准它的「LTS」版本（长期支持，如 24.04），稳定且维护多年：本项目的稳妥之选。
VPS: 虚拟专用服务器：在云上租来的一台机器，按月计费，开箱即 Linux，随处可达。当你什么都不想买时，它是自家迷你 PC 的替代方案，但没有大显卡，还要付订阅费。