语音识别技术,也被称为自动语音识别(Automatic Speech Recognition ,ASR),其目标是将人类的语音中的词汇内容转换为计算机可读的输入,例如按键、二进制编码或者字符序列。与说话人识别及说话人确认不同,后者尝试识别或确认发出语音的说话人而非其中所包含的词汇内容。
语音识别系统一般分训练和解码两阶段。训练,即通过大量标注的语音数据训练声学模型;解码,即通过声学模型和语言模型将训练集外的语音数据识别成文字,训练的声学模型好坏直接影响识别的精度。