模型部署

文章列表

33
模型推理基础：vLLM与TensorRT-LLM
第 33 期 2026-01-09 · 13 分钟阅读实践
高性能推理引擎深度对比：vLLM的PagedAttention原理、TensorRT-LLM的Fusion优化、推理吞吐量和延迟的优化技巧，以及如何选择合适的推理引擎和配置参数。
34
模型量化技术：从GPTQ到GGUF
第 34 期 2026-01-09 · 11 分钟阅读进阶
模型量化的完整指南：INT8/INT4量化原理、GPTQ、AWQ、GGUF等量化方法对比、量化对模型精度的影响，以及如何在端侧设备上高效运行量化模型。
35
LoRA与QLoRA微调实战
第 35 期 2026-01-11 · 11 分钟阅读实践
参数高效微调（PEFT）实践：LoRA和QLoRA的原理与实现、如何在小显存上微调大模型、LoRA的应用场景与效果对比，以及使用Axolotl等工具进行微调的完整流程。
36
模型压缩与剪枝
第 36 期 2026-01-09 · 7 分钟阅读进阶
让模型更小更快：知识蒸馏（Knowledge Distillation）原理、结构化剪枝与非结构化剪枝、模型压缩的评估方法，以及如何在保持性能的同时大幅减小模型体积。
37
服务化部署：Serving与API设计
第 37 期 2026-01-09 · 9 分钟阅读实践
LLM服务化生产实践：KServe、Triton Inference Server等 Serving框架对比、RESTful API与WebSocket接口设计、负载均衡与弹性伸缩，以及构建高并发LLM服务的经验。
38
边缘部署：移动端与嵌入式
第 38 期 2026-01-09 · 8 分钟阅读进阶
LLM在边缘设备上的部署：CoreML、ONNX、NCNN等推理框架对比、移动端模型优化技巧、在手机和嵌入式设备上运行LLM的完整方案，以及端侧AI的应用场景。
39
成本优化策略
第 39 期 2026-01-09 · 10 分钟阅读实践
降低LLM应用成本的全面策略：Token优化技巧、智能缓存策略、模型选择与混合使用、请求合并与批处理，以及如何在保持质量的前提下大幅降低API调用成本。
40
监控与可观测性
第 40 期 2026-01-11 · 7 分钟阅读实践
LLM应用的监控体系：延迟监控、吞吐量监控、质量监控（准确性、相关性）、错误追踪与日志分析，以及如何建立完整的可观测性体系来保障生产环境稳定运行。