语音识别技术早期的应用主要是语音听写,用户说一句,机器识别一句。后来发展成语音转写,随着AI的发展,语音识别开始作为智能交互应用中的一环。
下面我们就来一一介绍这些应用:
语音识别的基本原理
所谓语音识别,就是将一段语音信号转换成相对应的文本信息,系统主要包含特征提取、声学模型,语言模型以及字典与解码四大部分,其中为了更有效地提取特征往往还需要对所采集到的声音信号进行滤波、分帧等预处理工作,把要分析的信号从原始信号中提取出来;之后,特征提取工作将声音信号从时域转换到频域,为声学模型提供合适的特征向量;声学模型中再根据声学特性计算每一个特征向量在声学特征上的得分;而语言模型则根据语言学相关的理论,计算该声音信号对应可能词组序列的概率;最后根据已有的字典,对词组序列进行解码,得到最后可能的文本表示。
语音识别技术的工作流程
一般来说,一套完整的语音识别系统其工作过程分为7步:
1、对语音信号进行分析和处理,除去冗余信息。
2、提取影响语音识别的关键信息和表达语言含义的特征信息。
3、紧扣特征信息,用最小单元识别字词。
4、按照不同语言的各自语法,依照先后次序识别字词。
5、把前后意思当作辅助识别条件,有利于分析和识别。
6、按照语义分析,给关键信息划分段落,提取出所识别出的字词并连接起来,同时根据语句意思调整句子构成。
7、结合语义,仔细分析上下文的相互联系,对当前正在处理的语句进行适当修正。
语音识别原理有三点:
1、对语音信号中的语言信息编码是按照幅度谱的时间变化来进行;
2、由于语音是可以阅读的,也就是说声学信号可以在不考虑说话人说话传达的信息内容的前提下用多个具有区别性的、离散的符号来表示;
3、语音的交互是一个认知过程,所以绝对不能与语法、语义和用语规范等方面分裂开来。
预处理,其中就包括对语音信号进行采样、克服混叠滤波、去除部分由个体发音的差异和环境引起的噪声影响,此外还会考虑到语音识别基本单元的选取和端点检测问题。反复训练是在识别之前通过让说话人多次重复语音,从原始语音信号样本中去除冗余信息,保留关键信息,再按照一定规则对数据加以整理,构成模式库。再者是模式匹配,它是整个语音识别系统的核心部分,是根据一定规则以及计算输入特征与库存模式之间的相似度,进而判断出输入语音的意思。
前端处理,首先对原始语音信号进行预处理,然后对其进行特征提取,消除噪音以及说话人之间的发音差异所造成的影响,使得处理后的信号可以更完整地反映出语音的本质特征。