新書推薦:
《
空间与政治
》
售價:HK$
87.4
《
少年读三国(全套12册)
》
售價:HK$
490.6
《
不完美之美:日本茶陶的审美变
》
售價:HK$
87.4
《
现代化的迷途
》
售價:HK$
98.6
《
钛经济
》
售價:HK$
77.3
《
甲骨文丛书·无垠之海:世界大洋人类史(全2册)
》
售價:HK$
322.6
《
中国救荒史
》
售價:HK$
109.8
《
三十六计绘本(共8册)走为上计+欲擒故纵+以逸待劳+无中生有+金蝉脱壳+浑水摸鱼+打草惊蛇+顺手牵羊 简装
》
售價:HK$
177.4
|
內容簡介: |
本书为“类脑计算与类脑智能研究前沿”系列之一。本系列图书正是在中国“脑计划”这一发展战略大背景下,全面梳理我国在类脑计算与类脑智能领域的创新性前沿成果,填补我国在类脑计算与类脑智能在出版领域的空白。本系列图书以专题论述的方式,邀请国内类脑计算领域、脑影像及图谱领域、神经科学领域、人机交互领域、语言处理领域有造诣的学者合力撰写完成。图书主要围绕类脑计算与类脑智能方向的前沿创新技术,介绍类脑计算与类脑智能相关的概念理论、模型和应用,并对相关定义与描述进行研究和讨论,做出权威性的界定。
|
關於作者: |
俞凯, 博士,博士生导师,国家优秀青年科学基金获得者,入选国家“青年千人计划”,入选上海市“东方学者”特聘教授,上海交通大学计算机科学与工程系研究员,智能语音技术实验室负责人。在人机口语交互领域进行了广泛的理论和应用研究,涉及统计语义理解及对话管理,大词汇连续语音识别,参数化语音合成,口语评估,丰富音频分析等方向。他所负责搭建的大规模连续语音识别系统和人机口语对话系统都曾获得国际评测的冠军。
|
目錄:
|
1 言语产生和听觉的机理及其研究
1.1 言语产生和感知的机理
1.1.1 有声语言产生的条件
1.1.2 语音产生的机理
1.1.3 语音感知的机理
1.2 声源的产生与声道的调制
1.2.1 声源产生机理与感知
1.2.2 声道的调制机理
1.3 言语产生与感知的相互作用
1.3.1 言语链
1.3.2 言语感知运动理论
1.3.3 言语感知机理研究的发展与挑战
1.3.4 镜像神经元和言语听觉一运动整合
1.4 言语的脑功能研究
1.4.1 言语的脑认知研究发展
1.4.2 言语的认知神经机理
1.4.3 言语功能障碍及康复训练
1.5 语音信号处理方法简介
1.5.1 基于产生机理的信号处理方法
1.5.2 基于感知机理的信号处理方法
参考文献
2 语音增强与麦克风阵列信号处理
2.1 信号模型
2.1.1 时域信号模型
2.1.2 频域信号模型与短时傅里叶变换技术
2.2 评价方法
2.2.1 主观评价方法与指标
2.2.2 客观评价方法与指标
2.3 单声道语音增强
2.3.1 时域维纳滤波器增强原理
2.3.2 频域维纳滤波器增强原理
2.3.3 噪声功率谱的估计
2.3.4 基于深度学习的语音增强
2.4 麦克风阵列语音增强
2.4.1 固定波束
2.4.2 自适应波束
2.4.3 后置滤波技术
参考文献
3 语音识别声学建模
3.1 统计语音识别概述
3.2 基于隐马尔可夫模型的经典声学建模方法
3.2.1 HMM
3.2.2 GMM-HMM在语音识别中的使用
3.2.3 模型改进及问题分析
3.2.4 自适应技术
3.2.5 鉴别性训练技术
3.3 结合深度学习的声学建模方法
3.3.1 深度学习基础
3.3.2 CD-DNN-HMM混合建模
3.3.3 深度学习在声学建模中的综合应用
3.3.4 深度学习训练加速
3.3.5 深度学习自适应技术
3.3.6 深度学习框架下的序列鉴别性训练
3.3.7 端到端声学建模
参考文献
……
4 特殊场景语音识别(抗噪、低资源)
5 声纹识别与语种识别
6 韵律、情绪及音乐分析
7 统计语音合成
8 人机口语对话系统
9 面向健康医疗的语音技术
索引
|
內容試閱:
|
人类的语言主要有两种承载形式:连续信号的有声语言和离散信号的文本语言,其中有声语言至今已有五万年的历史,而文本语言至今已有四千多年的历史。文本语言是对有声语言运用规则的总结和符号化的记录,反过来讲,它对有声语言的习得和使用也起到了一定的指导作用。从本质上看,有声语言是经过符号化语言信息的调制、承载说话人意图信息和生物信息的声信学号,而听觉是人类感知有声语言、解析和理解其承载信息的主要手段。在会话交流的听觉信息处理过程中,人们从感知到的声学信号中解调语音承载的语言信息、副语言信息和非语言信息信息,对所关注的信息进行加工处理。从科学研究的角度看,此处理过程涉及语音声学信号的处理、环境噪声的处理、语音识别、语音合成、说话人识别、言语韵律处理以及对话理解等多个研究领域。对于将有声语言作为物理声学信号进行处理的研究领域,通常称之为“语音”,而对于将有声语言作为语言信息载体的研究领域,则称之为“言语”。
人类的言语产生功能和言语感知功能在其成长过程中共同进化、共同发育,在大脑中形成“听、说、读”多位一体的多模态言语链。从1791年冯·肯佩伦(von Kempelen)发明了第1台高度仿真人类发音机制的机械语音合成器(称为“说话机器”)至今已有230年,从1950年贝尔实验室构建了早的语音识别系统至今已有70年。其间,人们一直遵循语音产生和感知机理对语音信号处理的原理和方法进行探究,即如何基于人的语音产生机理来解码声道特性和声源特性、如何基于人的听觉感知机理去挖掘语音的物理声学特征。本书本着“温故而知新”的原则,在介绍语音产生和感知机理的同时,对传统的语音处理技术和方法进行了简单的归纳与回顾,希望通过“重温”这些原理性的语音技术能够启迪读者的灵感,对于深入理解听觉信息处理的前沿技术有所帮助。
近年来,随着基于深度神经网络的机器学习方法的迅速发展和计算机算力的大幅度提升,在理想环境下从语音信息到文字转写的能力已经与人类的水平相当。本书在简要回顾过往成功算法的基础上,首先针对包括各种加性噪声、混响噪声以及线路回声等复杂噪声环境,探讨了语音增强的主观和客观评价方法、单声道语音增强方法以及近年来蓬勃发展的基于深度学习的语音增强方法和基于麦克风阵列的语音增强前沿技术;在回顾基于隐马尔可夫模型的经典声学建模方法的同时,探讨了结合深度学习的声学建模方法以及端到端的声学建模方法;从语音的鲁棒性特征人手,探讨了鲁棒语音识别的前端处理方法以及环境表达与声学模型的自适应方法、参数结构化自适应及自适应训练、多语种声学与语言建模、低资源小语种的语言模型建模等技术。
言语包含了语言信息、副语言信息和非语言信息。说话人的性别、年龄、嗓音、病理以及生理状态等信息虽然都属于非语言信息。但是这些反映说话人特征的信息在言语交互和其他社会活动中起着不可或缺的作用。在说话人识别方面,本书重点介绍了基于深度学习的迁移学习、多任务学习及多数据库联合学习等方法;在声纹识别方面,本书介绍了说话人特征提取的方法,并着重介绍了时变鲁棒声纹识别、短语音声纹识别和防声纹假冒闯入对策以及基于深度学习的声纹识别算法。
言语的韵律超出了语音信号本身的范畴,它一方面是交际双方的生理、心理和信息处理能力的体现,另一方面也是交际双方社会属性的体现。言语韵律的分析与建模涉及情感语音识别、语音合成以及对话理解等领域,本书从汉语的特征出发,介绍了韵律标注系统的构建,韵律分析与建模以及汉语韵律研究的挑战问题。同时介绍了情感语音声学特征的分析方法,语音的情感分类与识别以及情感语音合成等方面的技术和成果。
在人机融合的智能社会中,语音合成是实现人机自然对话的主要途径之一。当今,语音合成技术已经融入智能手机、智能家电等设备,服务于有声读物、信息查询与发布系统、办公自动化系统、虚拟现实与增强现实等诸多领域。尽管如此,这种技术尚有“不尽人意”的地方。为了聚焦其挑战性问题,本书首先回顾了基于隐马尔可夫模型的统计语音合成方法,介绍了其关键技术以及该语音合成方法的优缺点;然后重点介绍了结合深度学习的统计语音合成方法的关键技术包括基于深度学习的声学建模方法、基于神经网络的语音合成前端处理、基于深度学习的韵律边界预测以及神经网络波形生成模型的构建;后介绍了基于神经网络的语音合成端到端建模方法的前沿技术。
言语理解是语音技术真正融人人类生活的“后1公里”。本书在介绍了言语对话理解基本概念的基础上,首先讨论了言语理解算法的前沿技术,其中包括口语理解中的不确定性建模,上下文建模及领域自适应技术;然后概述了人机口语对话系统.介绍了任务型人机口语对话系统的基本架构与对话系统的性能评估问题,探讨了对话状态跟踪的前沿技术及其挑战,通过有代表性的模型进行了详细解说;后介绍了的端到端的DST模型以及多领域DST模型,探讨了对话策略优化、深度强化学习在对话策略训练中的应用以及对话策略优化训练中的前沿技术。
广大科研人员希望日益深人人心的语音技术不仅能为人们的日常生活锦上添花,更应当为听力残障人士雪中送炭,提高和改善他们的生活质量。为此,本书详细地介绍了面向健康医疗的语音技术。由于大部分言语障碍和听觉障碍是由发音/听觉器官的残疾或相关脑功能受损而引起的,本书在第1章和第9章对发音/听觉器官构造和机理从不同的侧面进行了阐述,对言语处理的脑神经机理及其前沿研究进行了介绍。此外还重点介绍了听障评估与助听技术的前沿研究、嗓音障碍产生机制与客观评估技术以及言语康复训练与学习相关的前沿技术及其研究。
本书从语音信号处理的角度全面地阐述了听觉信息处理的前沿技术与挑战性问题。本书的各位编者都是各相关领域的一线专家,其中的很多技术成果是他们及其团队多年来为我国在该领域研究做出的贡献。本书可以为听觉信息处理及相关领域的专家、工程技术人员以及对语音领域感兴趣的广大教师和学生提供学术参考。
|
|