本地托管大语言模型实录
我觉得时机成熟了——从 2026 年起,本文全新升级为记录大语言模型技术演进和普惠化的“活文章”。我的探索自 2025 年起步,彼时 Deepseek 刚刚揭开大语言模型普惠化的序幕,掀起本地部署大模型的热潮;此后新技术、新理论层出不穷,部署、推理成本指数级下降;结果是,无偿体验大模型能力的平台如雨后春笋般涌现,包括但不限于:
尽管如此,出于隐私考虑,我仍希冀于借助手头上的笔记本、台式机等计算资源来托管大模型,尤其是专精翻译的模型,于是有了这些小文章的合集。下面按时间倒序,讲讲我亲身体验的模型罢,分别为:
- 混元翻译模型 1.5 系列
HY-MT1.5,由笔记本和桌面 GPU 装载 - 通义千问 3.0 系列
Qwen3:稠密版 8B 和混合专家架构(MoE)版 30B-A3B,由笔记本装载 - 早期通用稠密模型,含 Gemma-X2、GLM-4、Qwen 2.5,由笔记本装载
推理框架以 LLaMA.cpp 为主——开销最小,性能最佳,支持深度量化,支持跨平台、多种硬件加速推理,目前仍在快速迭代。