（连续语音识别中半连续HMM的研究及实现）

格式：word 上传：2022-06-25 13:20:24

《（连续语音识别中半连续HMM的研究及实现）》修改意见稿

1、“.....它是个第五章系统与实验汉语普通话的连续句子语音数据库，这些数据的采样率是，位，单声道。全部数据取自自然发音，实验室环境。采自个男声，个女声，每人约句，共条句子。中有不同句子音节串不同条，分成三类，每个说话者说其中的类，每类有个左右的说话者，见表表中句子类型统计说话者类句类句类男声女声最后个是垃圾数据库，它只含有静音和有音两类文件，采样率是，位，单声道，其中含有个静音文件和个有声文件。主要用来训练静音模型和垃圾模型。这个数据库是我们实验室自己收集和整理的。在我们的实验中，涉及到和数据库中的全部男声数据及垃圾数据库。系统的实现我们系统的识别基元是与上下文无关的无调音节，全部无调音节为个，由于些音节从来没有在连续语音的训练语料中出现过，实际发挥作用的音节数要小于个。系统采用的声学层特征矢量是与听觉相关的特征，分别是维的倒谱系数和维能量系数及其二阶差分系数，共维......”。

2、“.....所有基元的状态数是相同的，都为个，这样处理的结果减轻了计算的代价及其复杂性。模型采用符合语言特点的由左向右无跨越方式，个无调音节共享个码本，考虑到静音的特殊性，把静音也作为个独立的音节加入到系统中，并且单独为静音训练了个码本。因此系统共有个模型，个码本。第五章系统与实验训练程序训练程序包括几个主要的功能，简述如下码本生成模块这个模块主要利用第三章阐述的码本生成算法来生成的初始码本。孤立音节训练模块这个模块主要利用算法训练中的孤立音节，为连续语音训练提供个好的初始模型。连续语音训练模块它在孤立音节训练的初始模型基础上，采用算法训练数据库。垃圾模型训练模块主要用来训练垃圾模型，训练依然采用算法，静音模型作为垃圾的种也是采用这个模块训练的。由于静音模型和有声的音节模型显著的不同，共享语音模型库的连续语音码本存在着困难......”。

3、“.....静音模型的码本最终要追加到语音模型库里。在训练静音模型的同时，我们也通过垃圾数据库生成了对应的有音垃圾模型。需要说明的是如果只是训练有音的垃圾模型，我们就没必要单独训练套码本，只要使用已训练好的连续语音的码本就可以了。静音识别模块包含有音和静音两个模型，主要用来在训练前通过搜索切除句子静音，保证算法能有效地训练音节模型。垃圾模型合并模块垃圾模型是单独训练的，利用这个模块把垃圾例如静音追加到最终的语音模型库里。码本剪枝模块在训练阶段，由于要在全局优化码本，无法进行码本剪枝。本模块是在训练完成后，按第四章阐述的方法进行码本剪枝。精度转换模块在码本剪枝的基础上，本模块对训练好的模型参数全面进行精度转换。并生成在识别系统中使用的语音库。离线的语音识别模块完成基于孤立音节及连续语音的识别。由于可以对语料进行批量识别，主要用来验证模型训练的效果。训练程序实现的主要类及其方法......”。

4、“.....采用方法切除句子中的静音，它包括三个主要的方法方法从特征帧序列里切除静音，方法从波形序列里切除静音，方法用来检验静音切除的效果。类这个类封装了系统使用的大部分可调参数。类这个类封装了生成维特征的数据结构及方法，方法是特征生成的入口。由其它类调用。类封装了对数据库访问的方法，包括对，和数据库的访问，入口为方法，通过在类中指定不同的访问参数可分别访问这三个数据库。类封装了使用最终生成的识别模型库的离线搜索方法，它是对在线识别的近似模拟，目的是用来批量检验识别模型库及在线识别的效果。类封装了日志生成的方法，用来产生程序运行的中间结果并在文件里保存，如果是调试状态，结果也输出到屏幕。类是系统最重要的个类，它封装了全部的模型数据结构，码本训练，模型训练及识别等等方法。主要有方法用来生成码本，方法用来模型训练......”。

5、“.....方法用来训练静音模型，同时也训练了对应的有音模型，方法用于码本剪枝，方法用于精度转换并生成最终的识别模型库。方法用于把垃圾模型合并到语音模型库，和方法用于检验音节和连续语音的训练效果。使用这个系统的难点是需要清楚参数如何调整，要进行的工作都涉及那些参数应该如何设置才是合理的。另外在程序中也有几个默认的规则，例如，码本剪枝后生成的新模型库默认为，精度转换也是如此。切静音库默认为，在训练静音和有音模型时，默认静音数据在设定目录的子目录下，有音数据在子目录下等。第五章系统与实验如果进行了的设置或存在非法的数据，大部分情况下程序会简单地返回而不做任何工作，这也是我们下步要改进的地方。由于我们的实验系统需要评估各种算法的优劣，系统关键训练步骤都是分开进行的，因此清楚训练流程和衔接方法是有益的。如果对系统有所了解，使用和改进都是较容易的......”。

6、“.....虽然对语料缺乏具有定的抵抗能力，但我们的系统是非特定人的，语料太少会使系统趋近于特定人，这样尽管训练集内的识别率有所提高，但训练集外的识别率却降低很多。在训练中音节模型静音模型有音码本聚类孤立音节训练有音模型训练连续语音训练垃圾码本聚类模型合并码本剪枝精度转换结果图连续语音训练流程图静音模型训练第五章系统与实验语料较少的个直接表现是码本的方差变得很小相当于过度训练。过小的方差对非特定人识别是不利的，因此在训练时我们限制了方差的下限。另个要注意的问题是和我们的训练语料有关的，在训练连续语音数据库之前，我们利用数据库训练了音节的初始模型，因为两个数据库采样率的不同，相应地，我们定义了不同的特征帧长，在数据库，我们定义帧长为点，帧移为点在时间上，这相当于每帧长,而在数据库中我们定义帧长为点，帧移为点，在时间上，这相当于每帧长，由于语音信号具有短时平稳的特点......”。

7、“.....和定义的特征相比，的特征帧长提高了，对相同时长的语音段而言，的帧数减少了许多，很明显，当在状态空间搜索时效率会大大提高。这也是我们提高搜索速度的种简单有效的方式。识别程序识别程序采用了和训练程序基本相同的体系结构，差别之是识别程序使用了精度转换后的语音模型库，识别时的内存需求较少并且速度提高较大。和训练程序中的离线识别程序相比,这里的识别程序需要处理语音的输入，同步地切分句子和识别，因此必须使用多线程来处理。识别程序包括几个主要的功能，简述如下语音输入模块主要完成语音的录入，播放，基于时域的句子端点的初步切分等。它使用了个单独的线程，我们称为辅助线程。端点检测模块当语音输入模块初步判断出句子的起止点时，利用此模块进步进行较精确判断，采用的技术是第四章阐述的基于时域的端点检测方法。由于在线识别的要求，句子的起止点并不是同时检测的，而是分别进行的......”。

8、“.....因此和语音输入模块共同使用辅助线程。识别模块识别模块在主线程里，主要采用连续语音的算法，加入了剪枝，每当端点检测模块精确地判断出个句子的起点后，个消息发到主线程使得识别模块被调用，识别模第五章系统与实验块取出当前有效的语音数据，生成特征并识别当句子未结束而没有有效的语音数据时，识别模块等待当本次语音数据处理完后发现新的语音数据时，识别模块取出新的有效的语音数据并继续处理当句子结束时，识别模块处理完所有的语音数据后结束并给出识别结果如果识别正在进行而新的句子已产生，这个句子被简单地忽略。通常机器较慢或句子间隔时间较短会发生这种情况。识别程序实现的主要类及其方法，简述如下类封装了和声音输入输出有关的方法，其中最重要的个方法是，当语音输入缓冲区满时，这个方法被调用，它通过计算语音的能量来检测是否有语音包括初步确认语音的开始和结束并进行相应的动作......”。

9、“.....主要包括开始端点检测方法和结尾端点检测方法。类封装了和训练系统相似的的模型数据结构，其中有两个主要方法，方法是在线识别，它由方法发送的消息启动，随着语音的不断输入，采用时间同步的逐帧进行解码。方法是离线识别，主要是方便测试，和训练系统的离线识别程序没有大的区别。类用于生成特征，和训练系统相同。类封装了用于显示语音波形的控件。识别的主要流程如图和图第五章系统与实验在线识别和离线识别存在着些细微的差别，如果不很好地处理这些差别，在线识别的效果就会受到影响，首先，在线识别不象离线识别那样图辅助线程的流程图是是否否语音输入精确起点检测通知句子开始精确终点检测通知句子结束主线程句子起点句子终点图主线程的流程图是否否是启动生成特征并识别句子结束吗显示结果通知结束有新数据辅助线程第五章系统与实验可以同时获得个句子的所有语音帧，在每个识别段内，它可能只能得到部分语音帧，因为语音还在输入......”。

温馨提示：手指轻点页面，可唤醒全屏阅读模式，左右滑动可以翻页。