高性能推理引擎深度对比:vLLM的PagedAttention原理、TensorRT-LLM的Fusion优化、推理吞吐量和延迟的优化技巧,以及如何选择合适的推理引擎和配置参数。
模型部署
模型部署
文章列表
- 33
- 34模型量化的完整指南:INT8/INT4量化原理、GPTQ、AWQ、GGUF等量化方法对比、量化对模型精度的影响,以及如何在端侧设备上高效运行量化模型。
- 35参数高效微调(PEFT)实践:LoRA和QLoRA的原理与实现、如何在小显存上微调大模型、LoRA的应用场景与效果对比,以及使用Axolotl等工具进行微调的完整流程。
- 36让模型更小更快:知识蒸馏(Knowledge Distillation)原理、结构化剪枝与非结构化剪枝、模型压缩的评估方法,以及如何在保持性能的同时大幅减小模型体积。
- 37LLM服务化生产实践:KServe、Triton Inference Server等 Serving框架对比、RESTful API与WebSocket接口设计、负载均衡与弹性伸缩,以及构建高并发LLM服务的经验。
- 38LLM在边缘设备上的部署:CoreML、ONNX、NCNN等推理框架对比、移动端模型优化技巧、在手机和嵌入式设备上运行LLM的完整方案,以及端侧AI的应用场景。
- 39降低LLM应用成本的全面策略:Token优化技巧、智能缓存策略、模型选择与混合使用、请求合并与批处理,以及如何在保持质量的前提下大幅降低API调用成本。
- 40LLM应用的监控体系:延迟监控、吞吐量监控、质量监控(准确性、相关性)、错误追踪与日志分析,以及如何建立完整的可观测性体系来保障生产环境稳定运行。