语音技术基础

ASR语音识别、TTS语音合成、VAD、音频编解码、声纹识别与降噪等核心技术

文章列表

1
语音识别全景：从 HMM 到端到端神经网络的演进
第 1 期 2026-04-05 · 11 分钟阅读入门
ASR技术发展脉络全梳理。从早期HMM-GMM到深度学习革命，详解CTC、Attention、RNNT三大解码范式，以及现代ASR流水线的完整架构。理解这些基础是掌握语音助手技术的第一步。
2
Whisper 深度解析：多语言 ASR 的工程实践
第 2 期 2026-04-05 · 12 分钟阅读进阶
OpenAI Whisper是多语言ASR的黄金标准。深入解析Whisper架构设计，对比faster-whisper（CTranslate2加速）、whisper.cpp（边缘推理）等社区方案，以及医疗、法律等领域的微调实践。
3
流式语音识别：实时 ASR 架构设计与优化
第 3 期 2026-04-05 · 14 分钟阅读进阶
实时语音助手必须用流式ASR。详解Conformer-Transducer架构、流式解码策略、与VAD的集成方案，以及如何将端到端延迟控制在200ms以内的工程实践。
4
语音合成基础：从文本到自然语音
第 4 期 2026-04-05 · 7 分钟阅读入门
TTS是语音助手的“嘴巴”。详解TTS流水线的三大组件（文本分析、声学模型、声码器），韵律建模如何让机器说话更自然，以及从拼接合成到神经网络合成的技术演进。
5
神经网络 TTS 深度对比：VITS、Bark、XTTS
第 5 期 2026-04-05 · 14 分钟阅读进阶
对比当前主流开源TTS方案：VITS（并行生成高质量语音）、Bark（支持非语言声音）、XTTS（多说话人多语言）。从架构设计、音质、推理速度、部署难度等维度全面评测。
6
零样本语音克隆：3 秒音频复刻任意声音
第 6 期 2026-04-02 · 8 分钟阅读进阶
零样本语音克隆已从实验室走向实用。详解VoiceCraft-X（基于Qwen3的多语言语音编辑+克隆）、F5-TTS、Flow-Matching技术路线，以及跨语言保持说话人身份的挑战。
7
语音活动检测 (VAD)：让机器知道何时该听
第 7 期 2026-04-03 · 10 分钟阅读入门
VAD是语音助手的“守门人”。对比Silero VAD、WebRTC VAD等方案，详解噪声鲁棒VAD技术，以及VAD与ASR如何协同工作实现自然的话轮检测。
8
神经音频编解码器：语音数字化的基础设施
第 8 期 2026-04-03 · 10 分钟阅读进阶
神经音频编解码器是语音大模型的基石。详解EnCodec、Vocos、SACodec等方案，多码本tokenization策略，以及它们如何将连续音频转换为离散token供大模型处理。
9
声纹识别与说话人分离：语音助手的身份认证
第 9 期 2026-04-05 · 9 分钟阅读进阶
语音助手需要知道“谁在说话”。详解说话人嵌入（x-vector、d-vector）、在线聚类方法、多说话人场景的分离技术，以及个性化语音助手的身份管理方案。
10
语音增强与降噪：嘈杂环境中的清晰对话
第 10 期 2026-04-05 · 15 分钟阅读进阶
真实场景充满噪声。详解语音分离、波束成形、深度学习降噪技术，以及在实时语音助手中的应用。从传统信号处理到端到端神经网络方案的全景梳理。