ASR技术发展脉络全梳理。从早期HMM-GMM到深度学习革命,详解CTC、Attention、RNNT三大解码范式,以及现代ASR流水线的完整架构。理解这些基础是掌握语音助手技术的第一步。
语音技术基础
ASR语音识别、TTS语音合成、VAD、音频编解码、声纹识别与降噪等核心技术
文章列表
- 1
- 2OpenAI Whisper是多语言ASR的黄金标准。深入解析Whisper架构设计,对比faster-whisper(CTranslate2加速)、whisper.cpp(边缘推理)等社区方案,以及医疗、法律等领域的微调实践。
- 3实时语音助手必须用流式ASR。详解Conformer-Transducer架构、流式解码策略、与VAD的集成方案,以及如何将端到端延迟控制在200ms以内的工程实践。
- 4TTS是语音助手的“嘴巴”。详解TTS流水线的三大组件(文本分析、声学模型、声码器),韵律建模如何让机器说话更自然,以及从拼接合成到神经网络合成的技术演进。
- 5对比当前主流开源TTS方案:VITS(并行生成高质量语音)、Bark(支持非语言声音)、XTTS(多说话人多语言)。从架构设计、音质、推理速度、部署难度等维度全面评测。
- 6零样本语音克隆已从实验室走向实用。详解VoiceCraft-X(基于Qwen3的多语言语音编辑+克隆)、F5-TTS、Flow-Matching技术路线,以及跨语言保持说话人身份的挑战。
- 7VAD是语音助手的“守门人”。对比Silero VAD、WebRTC VAD等方案,详解噪声鲁棒VAD技术,以及VAD与ASR如何协同工作实现自然的话轮检测。
- 8神经音频编解码器是语音大模型的基石。详解EnCodec、Vocos、SACodec等方案,多码本tokenization策略,以及它们如何将连续音频转换为离散token供大模型处理。
- 9语音助手需要知道“谁在说话”。详解说话人嵌入(x-vector、d-vector)、在线聚类方法、多说话人场景的分离技术,以及个性化语音助手的身份管理方案。
- 10真实场景充满噪声。详解语音分离、波束成形、深度学习降噪技术,以及在实时语音助手中的应用。从传统信号处理到端到端神经网络方案的全景梳理。