新書推薦:
《
姑苏繁华图
》
售價:HK$
684.4
《
人的消逝:从原子弹、互联网到人工智能
》
售價:HK$
103.8
《
想象的共同体--民族主义的起源与散布(增订版)
》
售價:HK$
77.3
《
医学图形图像处理基于Python VTK的实现
》
售價:HK$
166.9
《
山家清供:小楷插图珍藏本 谦德国学文库系列
》
售價:HK$
143.4
《
政略与战略论
》
售價:HK$
140.0
《
百年词史-(1900-2000(全二册))
》
售價:HK$
333.8
《
RDI人际关系发展疗法:修复孤独症核心障碍,让干预回归生活
》
售價:HK$
99.7
|
編輯推薦: |
阐述了语音识别的基本类型,对近60年来国内外俄语连续语音识别研究现状进行评析;建立声学模型和语言模型是俄语连续语音识别研究需要解决的关键问题。
|
內容簡介: |
本书系统介绍基于新闻语料的俄语连续语音识别方法。全书共分以下几个部分:基于Kaldi设计实现俄语连续语音识别原型系统,使之具备在线识别和离线识别功能,以验证声学模型和语言模型优化算法的有效性,进而为面向特定领域的俄语语音识别实用系统研发提供理论方法、实验数据和关键技术支撑。为了实现上述目标,需要进行如下环环紧扣的操作步骤:俄语语音语料的采集加工处理、俄语文本语料的采集清洗过滤、俄语发音词典的自动预测生成、声学模型建模基本单元(音素集)的确定、声学模型和语言模型的优化等。
|
關於作者: |
马延周,男,战略支援部队信息工程大学洛阳校区,副教授,博士研究生
1996-2000,解放军信息工程大学学员,计算机应用专业
2000-2005,解放军外国语学院基础部讲师
2005-2008,解放军信息工程大学硕士研究生,计算机技术应用
2008-2012,解放军外国语学院基础部讲师
2012-2016,解放军外国语学院博士研究生,语言信息处理(语音识别)
2013-2015,中国科学技术大学、科大讯飞研究院访学,主要研究连续语音识别
2016-,解放军信息工程大学洛阳校区(原解放军外国语学院)副教授马延周,男,战略支援部队信息工程大学洛阳校区,副教授,博士研究生
1996-2000,解放军信息工程大学学员,计算机应用专业
2000-2005,解放军外国语学院基础部讲师
2005-2008,解放军信息工程大学硕士研究生,计算机技术应用
2008-2012,解放军外国语学院基础部讲师
2012-2016,解放军外国语学院博士研究生,语言信息处理(语音识别)
2013-2015,中国科学技术大学、科大讯飞研究院访学,主要研究连续语音识别
2016-,解放军信息工程大学洛阳校区(原解放军外国语学院)副教授
从教18年来,主要承担计算机类、语言信息类本硕博课程的主讲与辅导任务,主持或参与的国家级、省部级、院校级各类项目17余项是,主编或参编的教材4部。科研成果主要集中在多语种的信息处理(如语音识别、关键词识别、声纹识别等领域)及多语种语料的采集处理等领域。
2016年博士论文获解放军外国语学院优秀博士论文,排名第一。
2017年申报河南省优秀博士论文,2018年4月获批河南省优秀博士论文(当年,全省15篇优秀博士论文)。
|
目錄:
|
目录
第0章绪论1
0.1研究依据1
0.2研究对象与研究目标2
0.3研究方法3
0.4研究意义3
0.5本书的创新点4
0.6语料来源4
0.7本书的结构5
第1章语音识别技术研究综述7
1.1语音识别的定义与分类7
1.1.1语音识别的定义7
1.1.2语音识别的分类8
1.2语音识别技术的研究进展9
1.2.1语音识别技术的发展概况9
1.2.2国外俄语语音识别技术的研究进展10
1.2.3中国俄语语音识别技术的研究进展13
1.3语音识别系统的基本原理14
1.3.1特征提取15
1.3.2声学模型16
1.3.3语言模型17
1.3.4解码18
1.4语音识别技术研究所关注的关键问题19
本章小结21〖4〗新一代人工智能与语音识别〖2〗目录〖4〗第2章语音数据的加工处理22
2.1问题描述22
2.2众包的定义及内涵23
2.2.1众包的基本概念23
2.2.2众包的基本流程24
2.2.3众包的关键问题24
2.3解决方案25
2.3.1质量控制25
2.3.2语音标注平台的架构27
2.3.3标注平台的设计与实现28
2.4语音标注31
2.4.1语音有效性判断31
2.4.2语音转写规范32
2.4.3语音标注规范32
2.5实验设计与结果分析33
2.5.1实验设计33
2.5.2结果分析34
2.5.3结论36
本章小结36
第3章俄语声学模型的建立37
3.1连续语音识别37
3.1.1连续语音识别的整体模型38
3.1.2声学模型训练的HMMGMM方法40
3.1.3声学模型训练中的HMMDNN方法48
3.2俄语语音学概述52
3.2.1俄语的使用及分布情况52
3.2.2俄语语音的基本特点55
3.2.3俄语音素的发音特征56
3.2.4俄语元音音素的随位变化58
3.2.5俄语辅音音素的随位变化60
3.3俄语声学单元的选择61
3.3.1俄语SAMPA音素集61
3.3.2俄语音系表64
3.4实验设计与结果分析64
3.4.1实验设计65
3.4.2结果分析66
本章小结67
第4章俄语语言模型的建立68
4.1文本语料的准备与清洗68
4.1.1数据来源的筛选69
4.1.2数据爬取71
4.1.3数据的去重与清洗71
4.1.4格式化处理74
4.2语言模型简述75
4.2.1语言模型的平滑技术77
4.2.2语言模型的剪枝算法81
4.3语言模型的训练流程84
4.3.1语言模型的训练实现84
4.3.2词典的选择85
4.3.3LM的剪枝与优化87
4.4实验结果分析89
4.4.1词典规模测试89
4.4.2语料规模测试89
4.4.3语言模型剪枝测试90
本章小结91
第5章基于Kaldi的俄语语音识别原型系统92
5.1系统设计的目标与原则92
5.1.1系统设计的目标92
5.1.2系统设计的原则92
5.2系统的开发环境与整体架构93
5.2.1系统的开发环境93
5.2.2系统的整体架构93
5.3Kaldi环境的搭建94
5.3.1Kaldi及实验环境94
5.3.2Kaldi训练服务器的搭建96
5.3.3AM训练数据及参数设置98
5.3.4LM训练数据及参数设置107
5.4Kaldi训练优化111
5.4.1Kaldi声学建模111
5.4.2GPU加速113
5.5语音识别原型系统的设计114
5.5.1系统GUI的设计114
5.5.2在线识别功能114
5.5.3离线识别功能117
5.6实验设计与结果分析119
5.6.1实验设计119
5.6.2实验结果119
5.6.3结果分析120
本章小结121
第6章总结与展望122
6.1本书的主要成果122
6.2未来的研究计划123
附录A英汉术语对照表124
附录B其他相关资料126
B.1俄语发音词典76277个词形示例126
B.2俄语解码词表189971个词形示例127
B.3俄语字符Unicode编码对照表128
B.4俄语语音格式化程序转换为16KB、16b128
B.5俄语文本转Unicode编码程序129
B.6从https: twitter.com网站上下载的部分网页文件
json格式示例131
B.7从http: www.interfax.ru网站上下载的部分网页
文件json格式示例131
B.8俄语拉丁字母转写表132
参考文献134
|
內容試閱:
|
序
自动语音识别(Automatic Speech Recognition,ASR)是自然语言处理(Natural Language Processing,NLP)的一个重要领域。
世界上第一台能够自动识别语音的机器当属一种名为Radio Rex的玩具。这种玩具出现于20世纪20年代。Radio Rex是一个用赛璐璐材料制作成的玩具狗,它受到一根弹簧的控制,弹簧在500Hz的声音频率下会释放,弹簧一旦释放,玩具狗就会动起来。由于500Hz的频率粗略等于单词Rex中元音的第一个共振峰的频率,因此当人们说出Rex的时候,这只叫作Radio Rex的玩具狗就会在人们的呼唤声中自动走过来。
20世纪40年代末至50年代初,美国建立了一系列机器语音识别系统。早期,美国贝尔实验室中的系统可以识别一个单独说话人讲出的10个数字中的任何一个,这个系统存储了不依赖于说话人的10个模式,每个数字各有一个模式,每个模式都代表每个数字中的前两个元音的共振峰,研究人员通过选择与输入语音存在最高相关系数的方法使数字的语音识别正确率达到了97%~99%。
英国伦敦大学的Fry和Denes建立了一个音位识别系统,根据模式识别原则,该系统能够识别英语中的4个元音和9个辅音。Fry和Denes研发的系统首次使用了音位转移概率对语音识别系统进行约束。
20世纪60年代末至70年代初出现了许多重要的创新性研究成果。
首先,出现了一系列特征抽取算法,包括高效的快速傅里叶变换(Fast Fourier Transform,FFT)、倒谱(cepstrum)处理在语音中的应用以及语音编码中的线性预测编码(Linear Predictive Coding,LPC)的研制。
其次,提出了一些处理翘曲变形(warping)的方法,当与存储模式匹配时,通过展宽和收缩输入信号的方法处理说话速率和切分长度的差异。解决这些问题的最自然的方法是动态规划(dynamic programming)。在研究这个问题的时候,同样的算法被多次重新提出。 最早把动态规划应用于语音处理技术的人是Vintsyk,尽管他的成果没有被其他研究人员提及,但是后来有很多研究者都再次重复了他的发明。随后,Itakura把这种动态规划的思想和LPC系数相结合,并首次在语音编码中使用,他建立的系统可以抽取输入单词中的LPC特征,并使用动态规划的方法把这些特征与存储的LPC模板相匹配。这种动态规划方法的非概率应用是对输入语音进行模板匹配,称为动态时间翘曲变形(dynamic time warping)。
〖4〗新一代人工智能与语音识别〖2〗序〖4〗最后是隐马尔可夫模型(Hidden Markov Model,HMM)的兴起。1972年前后,美国的研究人员分别在两个实验室独立应用HMM研究语音问题。其中一部分的应用是由一些统计学领域的工作引起的,Baum和他的同事在普林斯顿国防分析研究所研究HMM,并把它应用于各种预测问题的解决。James Baker在于卡内基梅隆大学(CarnegieMellon University, CMU)攻读硕士期间研究了Baum等人的工作内容,并把他们的算法应用于语音处理。同时,在IBM公司的Thomas J. Watson研究中心,Frederick Jelinek、Robert Mercer、Lalit Bahl独立把HMM应用于语音研究,他们在信息模型方面的研究受到了Shannon的影响。IBM的系统和Baker的系统非常相似,都使用了贝叶斯(Bayes)算法,不同之处是早期的解码算法。Baker的DRAGON系统使用了维特比(Viterbi)动态规划解码,而IBM系统则应用了Jelinek的栈解码算法。Baker在建立DRAGON系统之前曾经短期参加过IBM小组的工作。IBM的语音识别方法在20世纪末期完全主导了语音识别领域,IBM实验室是把统计模型应用于自然语言处理的推动力量,他们研制了基于类别的多元语法模型,研制了基于HMM的词类标注系统,研制了统计机器翻译系统,他们还使用熵和困惑度作为评测系统的度量指标。
HMM逐渐在语音处理界流传开来,原因之一是美国国防部(U.S. Department of Defense)高级研究计划署(Advanced Research Projects Agency,ARPA)发起了一系列相关研究和开发计划。第一个五年计划始于1971年,目标是建立基于少数说话人的语音理解系统。这个系统使用了一个约束性语法和一个词表(包括1000个单词),要求语义错误率低于10%。ARPA资助了四个系统,并且对它们进行了比较,这四个系统是: 系统开发公司的系统(System Development Corporation,SDC)、Bolt,Beranek & Newman BBN的HWIM系统、卡内基梅隆大学的HearsayⅡ系统和Harpy系统。其中,Harpy系统使用了Baker基于HMM的DRAGON系统的简化版本,在评测系统时得到了最佳成绩。对于一般任务,Harpy系统的语义正确率达到了94%,是唯一一个达到了ARPA计划目标的系统。
自20世纪80年代中期开始,ARPA陆续资助了一些新的语音研究计划。第一个计划的任务是资源管理(Resource Management,RM),与ARPA早期的课题类似,其主要进行阅读语音(说话人阅读的句子的词汇量包含1000个单词)的转写(即语音识别),但这个系统还包括一个不依赖于说话人的语音识别装置。该计划的另一个任务是建立《华尔街杂志》(Wall Street Journal)的句子阅读识别系统,该系统的初始词汇量被限制在5000个单词以内,到最后,系统已经没有了词汇量的限制。事实上,大多数系统的词汇量都已经有了约6万个单词。后来的语音识别系统能够识别的语音已经不再是简单的阅读语音了,而是更加自然的语音。其中,广播新闻识别系统可以转写广播新闻,甚至转写那些非常复杂的新闻,如现场采访;还有CallHome系统、 CallFriend系统和Fisher系统,它们可以识别人们在电话交流中的自然对话。空中交通信息系统(Air Traffic Information System,ATIS)属于语音理解领域的课题之一,该系统可以帮助用户预订飞机票,回答用户关于航班、飞行时间、日期等方面的问题。
ARPA计划大约每年进行一次汇报,参加汇报的除了有ARPA资助的课题以外,还有来自北美和欧洲的其他志愿者系统,汇报时将分别测试各个系统的单词错误率和语义错误率。在早期测试中,营利型公司一般不参加比赛,但是随着时间的推移,很多公司开始积极参赛(特别是IBM公司和AT&T公司)。ARPA的比赛促进了各个实验室之间的借鉴和交流,因为在比赛中可以很容易地看出大家过去一年的研究进展和成果,这成为了HMM模型能够传播到每一个语音识别实验室的重要因素。ARPA的计划也造就了很多有用的数据库,这些数据库原来都是为了评估而设计的训练系统和测试系统(如TIMIT、RM、WSJ、ATIS、BN、CallHome、Switchboard、Fisher),但是后来却都在其他总体性研究中得到了应用。
中国在语音自动处理领域也取得了很不错的成绩。于1999年6月9日成立的安徽科大讯飞信息科技股份有限公司(简称科大讯飞)是一家专门从事智能语音及语音技术研究、软件及芯片产品开发、语音信息服务的国家级骨干软件企业。科大讯飞推出的产品包括大型电信级的应用到小型嵌入式的应用,电信、金融等行业到企业和家庭用户,PC到手机再到MP3、MP4、PMP和玩具,能够满足不同的应用环境。科大讯飞占有中文语音技术市场60%以上的市场份额,以科大讯飞为核心的中文语音产业链已经初具规模。
由以上介绍不难看出,自动语音识别是一个交叉学科,需要具备语言学、计算机科学、声学等领域的知识。
本书作者马延周不惧困难,他努力进行知识更新后的再学习,根据俄语语音的特点优化了声学层的HMM模型,采用较好的算法解决了训练数据不足和训练速度慢的问题;他还在具有较强背景噪声和多个说话人的环境下采用了降噪技术,增强了俄语语音识别的健壮性;此外,他还利用了各种能够辅助俄语语音识别的语言信息,除了俄语语音的频谱特征参数、能量参数、韵律参数以外,他还综合利用了俄语构词规则、变格变位规则、句法表现形式以及语义辨析和语境条件,有效地降低了俄语语音识别的错误率。
在研究过程中,作者建立了基于众包的俄语语音标注平台和语音语料库,设计了面向俄语新闻网页文本数据过滤清洗系统的俄语文本语料库,为俄语连续语音识别系统的研究开辟了新途径。作者还构建了一个具有一定规模的俄语发音词典,可以将俄语文本转写为相应的俄语标准发音,并对俄语语音识别中的音素集和字音转换规则进行了优化,降低了声学模型的训练难度,提高了模型的训练效果。最后,作者设计并实现的俄语连续语音识别原型系统同时具有在线识别功能和离线识别功能,这在一定程度上填补了中国俄语语音识别研究领域的空白。
本书详细阐述了作者的创新性研究,值得我们认真学习,是为序。
冯志伟2019年6月5日
前言
随着人工智能、计算技术和信号处理技术的飞速发展,以及自然语言与计算机网络的结合,语言的功能已由人际交流延伸至人机交流和机机交流,而实现这一目标的重要前提是计算机能够听懂并识别和理解人类的语言。当前,作为人机交互的关键技术,语音信息智能处理已成为网络空间环境下世界各国研究者广泛关注的热点问题之一。尤其是随着新媒体的出现和大数据的兴起,人们迫切需要对具有多通道、多来源、多语言特征的海量语音信息技术进行深化研究与创新突破,此项技术的战略意义和安全价值日渐突显。
近年来,国内外众多科研院所和企业都对英文和中文语音识别进行了深入的探索和研究,开发了一系列实用化系统,但是在俄语语音识别领域,尤其是对连续语音识别的研究还相对薄弱。本书通过考察分析国内外语音识别技术的研究现状及存在的难题,重点研究俄语连续语音识别的基本原理和关键技术,尝试采用深度神经网络DNN的声学模型优化训练方法,设计俄语连续语音识别原型系统。
本书试图解决以下三个问题:
1 俄语新闻语音语料和文本语料的采集、过滤、清洗、标注及建库方法;
2 建立基于DNN的声学模型和基于SRILM的语言模型,分析两类模型的训练算法优化和训练结果,并通过对比预测生成适用于语音识别的俄语发音词典;
3 设计与实现兼具在线和离线识别功能的俄语连续语音识别原型系统,并对原型系统的性能进行测试验证。
本书取得的主要成果如下:
1 在俄语声学模型训练过程中设计了基于众包的语音标注平台,建立了360小时的俄语新闻标注语音语料库,形成俄语语音识别音素集,采用DNN的优化训练方法生成了大小为59.7MB的声学模型;
2 在俄语语言模型训练过程中设计了俄语新闻文本语料过滤清洗系统,建立了10GB规模的纯净可训练俄语文本语料库,采用SRILM的优化训练方法生成了大小为1.21GB的四元剪枝语言模型;
3 通过数据驱动的方法预测生成包含76277个词形的俄语发音词典,利用该词典的数据资源,并基于Kaldi进行二次开发,实现了具有在线识别和离线识别功能的俄语连续语音识别原型系统,可以为面向特定领域的俄语语音识别实用系统的研发提供基础理论和关键技术支撑。
马延周2019年7月〖4〗新一代人工智能与语音识别〖2〗前言〖4〗
|
|