我觉得时机成熟了——从 2026 年起,本文全新升级为记录大语言模型技术演进和普惠化的“活文章”。我的探索自 2025 年起步,彼时 Deepseek 刚刚揭开大语言模型普惠化的序幕,掀起本地部署大模型的热潮;此后新技术、新理论层出不穷,部署、推理成本指数级下降;结果是,无偿体验大模型能力的平台如雨后春笋般涌现,包括但不限于:
尽管如此,出于隐私考虑,我仍希冀于借助手头上的笔记本、台式机等计算资源来托管大模型,尤其是专精翻译的模型,于是有了这些小文章的合集。下面按时间倒序,讲讲我亲身体验的模型罢,分别为:
- 混元翻译模型 1.5 系列
HY-MT1.5,由笔记本和桌面 GPU 装载 - 通义千问 3.0 系列
Qwen3:稠密版 8B 和混合专家架构(MoE)版 30B-A3B,由笔记本装载 - 早期通用稠密模型,含 Gemma-X2、GLM-4、Qwen 2.5,由笔记本装载
推理框架以 LLaMA.cpp 为主——开销最小,性能最佳,支持深度量化,支持跨平台、多种硬件加速推理,目前仍在快速迭代。
标准测试流程
- 拉取 LLaMA.cpp 最新一个提交并编译。如果涉及到 NVIDIA GPU,改为下载已预先编译的二进制程序。
- 自“魔搭社区”拉取目标模型,格式最好是已预先制作的 GGUF。如未提供 GGUF 格式,下载后用 LLaMA.cpp 附带 Python 工具转换格式,再量化为 INT8(由于内存容量有限,此操作仅限于 7B 以下参数量)。
- 在内存和 VRAM 允许的前提下,用
llama-server 加载并托管模型。一般用处理器推理;对于小参数模型,尽量引入 GPU 推理;对于混合专家架构(MoE),如有可能则下放一部分张量层到 VRAM。理论上 llama-cli 更节约资源,但命令行里跟 AI 互动有那么点别扭(我是未来主义者)……