2024-2025 年,大语言模型的规模从数千亿参数迈向万亿级。模型越来越大,推理成本却必须不断降低才能支撑实际业务。本文从量化、剪枝、知识蒸馏到 speculative decoding,系统梳理当前主流的大模型推理加速技术。
💡 模型量化:把大象装进冰箱
量化将 FP16 权重映射为 INT4/INT8,是当前最直接有效的加速手段。主流方案包括:
- GPTQ(Frantar et al., 2023)— 基于 Hessian 矩阵的 4-bit 后训练量化,精度损失极小
- AWQ(Lin et al., 2024)— 感知重要权重的激活感知量化,保留关键通道精度
- GGUF / llama.cpp — 社区事实标准,支持 CPU+GPU 混合推理
实测显示,INT4 量化可将模型体积压缩 4 倍,推理速度提升 2-3 倍,而准确率损失通常控制在 1% 以内。
Python
# GPTQ 量化示例(使用 AutoGPTQ 库) from auto_gptq import AutoGPTQForCausalLM from transformers import AutoTokenizer model_name = "meta-llama/Llama-3-70b-hf" tokenizer = AutoTokenizer.from_pretrained(model_name) model = AutoGPTQForCausalLM.from_pretrained( model_name, quantize_config=QuantizeConfig(4, 128), device_map="auto" ) model.quantize(tokenizer, calib_loader) model.save_pretrained("./llama-3-70b-4bit")
✂️ 结构化剪枝:瘦身不减智力
剪枝移除模型中对输出影响较小的权重或神经元。与量化互补,二者可叠加使用。
- SparseGPT — 一步式结构化剪枝,无需微调即可达到 50% 稀疏度
- SliceGPT — 删除 Transformer 层中的冗余切片,直接缩小矩阵维度
经验之谈:结构化剪枝 + 4-bit 量化可以叠加,最终模型体积缩小 8-10 倍。但剪枝率超过 60% 后需要知识蒸馏来恢复精度。
🏫 知识蒸馏:师夷长技
用大模型(Teacher)的输出分布训练小模型(Student),让 Student 学到 Teacher 的"软知识"——不仅是正确答案,还包括各候选的概率分布。2025 年的趋势是从静态蒸馏走向在线蒸馏:Teacher 和 Student 同步训练,Student 实时回传困惑度,Teacher 动态调整蒸馏温度。
Python
# 知识蒸馏的 KL 散度损失 def distillation_loss(student_logits, teacher_logits, temperature=4.0): soft_student = F.softmax(student_logits / temperature, dim=-1) soft_teacher = F.softmax(teacher_logits / temperature, dim=-1) kl_loss = F.kl_div( soft_student.log(), soft_teacher, reduction='batchmean' ) return kl_loss * (temperature ** 2)
⚡ Speculative Decoding:并行猜词
传统的自回归解码一次只生成一个 Token,GPU 利用率低。Speculative Decoding 的核心思路:
- 用一个小型草稿模型(Draft Model)一次性推测 K 个 Token
- 大模型对 K 个 Token 做并行验证
- 接受匹配的 Token,丢弃不匹配部分
在 Llama-3-70B 上的测试显示,配合 7B 草稿模型,推理吞吐量提升 2-3 倍,且输出分布与原始模型完全一致——这是一种无损加速技术。
📊 Speculative Decoding:Draft Model 快速生成,Target Model 并行验收
🧰 推理引擎与服务框架
有了算法优化,还需要高效的推理引擎来落地。当前主流选择:
- vLLM — PagedAttention 实现近似零浪费的 KV-Cache 管理,社区最活跃
- TensorRT-LLM — NVIDIA 官方,支持多节点张量并行,生产环境首选
- llama.cpp — 轻量级 CPU/GPU 混合推理,消费级显卡也能跑
📈 性能对比一览
Benchmark
| 方案 | 延迟 | 吞吐 | 质量损失 | 部署难度 | |---------------------|---------|---------|-----------|-----------| | FP16 (基线) | 1.0x | 1.0x | 0% | 低 | | INT4 GPTQ | 0.4x | 2.5x | <1% | 低 | | 50% 稀疏剪枝 | 0.6x | 1.7x | 1-2% | 中 | | 剪枝 + INT4 | 0.3x | 3.8x | 2-3% | 中 | | Speculative Decode | 0.5x | 2.8x | 0% | 中高 | | 蒸馏 (7B→3B) | 0.4x | 2.6x | 1-3% | 高 |
🎯 小结与展望
选择什么方案取决于你的场景:
- 零成本试水 → INT4 量化 + vLLM
- 极致性价比 → 剪枝 + 量化 + 蒸馏三层叠加
- 无损保精度 → Speculative Decoding
2025-2026 年,MoE(Mixture of Experts)架构的推理优化正在成为新热点——只激活部分 Expert 的稀疏计算方式,有望将同等算力下的推理吞吐再提升 5-10 倍。