登入帳戶  | 訂單查詢  | 購物車/收銀台(0) | 在線留言板  | 付款方式  | 運費計算  | 聯絡我們  | 幫助中心 |  加入書簽
會員登入   新用戶登記
HOME新書上架暢銷書架好書推介特價區會員書架精選月讀2023年度TOP分類瀏覽雜誌 臺灣用戶
品種:超過100萬種各類書籍/音像和精品,正品正價,放心網購,悭钱省心 服務:香港台灣澳門海外 送貨:速遞郵局服務站

新書上架簡體書 繁體書
暢銷書架簡體書 繁體書
好書推介簡體書 繁體書

十月出版:大陸書 台灣書
九月出版:大陸書 台灣書
八月出版:大陸書 台灣書
七月出版:大陸書 台灣書
六月出版:大陸書 台灣書
五月出版:大陸書 台灣書
四月出版:大陸書 台灣書
三月出版:大陸書 台灣書
二月出版:大陸書 台灣書
一月出版:大陸書 台灣書
12月出版:大陸書 台灣書
11月出版:大陸書 台灣書
十月出版:大陸書 台灣書
九月出版:大陸書 台灣書
八月出版:大陸書 台灣書

『簡體書』自然语言处理原理与技术实现

書城自編碼: 2811851
分類:簡體書→大陸圖書→計算機/網絡操作系統/系統開發
作者: 罗刚, 张子宪
國際書號(ISBN): 9787121286209
出版社: 电子工业出版社
出版日期: 2016-05-01
版次: 1
頁數/字數: 443/
書度/開本: 16开 釘裝: 平塑

售價:HK$ 118.5

我要買

share:

** 我創建的書架 **
未登入.


新書推薦:
利他主义的生意:偏爱“非理性”的市场(英国《金融时报》推荐读物!)
《 利他主义的生意:偏爱“非理性”的市场(英国《金融时报》推荐读物!) 》

售價:HK$ 79.4
认知行为疗法:心理咨询的顶层设计
《 认知行为疗法:心理咨询的顶层设计 》

售價:HK$ 102.4
FANUC工业机器人装调与维修
《 FANUC工业机器人装调与维修 》

售價:HK$ 102.4
吕著中国通史
《 吕著中国通史 》

售價:HK$ 64.4
爱琴海的光芒 : 千年古希腊文明
《 爱琴海的光芒 : 千年古希腊文明 》

售價:HK$ 204.7
不被他人左右:基于阿德勒心理学的无压力工作法
《 不被他人左右:基于阿德勒心理学的无压力工作法 》

售價:HK$ 67.9
SDGSAT-1卫星热红外影像图集
《 SDGSAT-1卫星热红外影像图集 》

售價:HK$ 457.7
股市趋势技术分析(原书第11版)
《 股市趋势技术分析(原书第11版) 》

售價:HK$ 227.7

 

建議一齊購買:

+

HK$ 229.1
《国家重点保护经济水生动植物图谱》
+

HK$ 103.5
《医药卫生法学》
+

HK$ 89.7
《医事模拟审判案例教程》
+

HK$ 73.5
《自己动手写网络爬虫(修订版)》
+

HK$ 88.5
《神经网络与深度学习》
+

HK$ 84.0
《Java自然语言处理(影印版)》
編輯推薦:
1、原理讲解通俗易懂
2、Java实现精彩详实
3、应用案例真实有用
內容簡介:
本书详细介绍自然语言处理各主要领域的原理以Java 实现,包括中文分词、词性标注、依存句法分析等。其中详细介绍了中文分词和词性标注的过程及相关算法,如隐马尔可夫模型等。在自然语言处理的应用领域主要介绍了信息抽取、自动文摘、文本分类等领域的基本理论和实现过程,此外还有问答系统、语音识别等目前应用非常广泛的领域。在问答系统的介绍中,本书特地介绍了聊天机器人的实现过程,从句子理解、句法分析、同义词提取等方面揭示聊天机器人的实现原理。
關於作者:
罗刚,猎兔搜索创始人,带领猎兔搜索技术开发团队先后开发出猎兔中文分词系统、猎兔信息提取系统、猎兔智能垂直搜索系统以及网络信息监测系统等,实现互联网信息的采集、过滤、搜索和实时监测。曾编写出版《自己动手写搜索引擎》、《自己动手写网络爬虫》、《使用C#开发搜索引擎》,获得广泛好评。在北京和上海等地均有猎兔培训的学员。张子宪,聊城大学教师、中国矿业大学(北京)博士生,研究方向:自动句法分析、机器翻译。
目錄
第1章 应用自然语言处理技术1
1.1 付出与回报2
1.1.1 如何开始2
1.1.2 招聘人员2
1.1.3 学习3
1.2 开发环境3
1.3 技术基础4
1.3.1 Java4
1.3.2 规则方法5
1.3.3 统计方法5
1.3.4 计算框架5
1.3.5 文本挖掘7
1.3.6 语义库7
1.4 本章小结9
1.5 专业术语9
第2章 中文分词原理与实现11
2.1 接口12
2.1.1 切分方案13
2.1.2 词特征13
2.2 查找词典算法13
2.2.1 标准Trie树14
2.2.2 三叉Trie树18
2.2.3 词典格式26
2.3 最长匹配中文分词27
2.3.1 正向最大长度匹配法28
2.3.2 逆向最大长度匹配法33
2.3.3 处理未登录串39
2.3.4 开发分词43
2.4 概率语言模型的分词方法45
2.4.1 一元模型47
2.4.2 整合基于规则的方法54
2.4.3 表示切分词图55
2.4.4 形成切分词图62
2.4.5 数据基础64
2.4.6 改进一元模型75
2.4.7 二元词典79
2.4.8 完全二叉树组85
2.4.9 三元词典89
2.4.10 N元模型90
2.4.11 N元分词91
2.4.12 生成语言模型99
2.4.13 评估语言模型100
2.4.14 概率分词的流程与结构101
2.4.15 可变长N元分词102
2.4.16 条件随机场103
2.5 新词发现103
2.5.1 成词规则109
2.6 词性标注109
2.6.1 数据基础114
2.6.2 隐马尔可夫模型115
2.6.3 存储数据124
2.6.4 统计数据131
2.6.5 整合切分与词性标注133
2.6.6 大词表138
2.6.7 词性序列138
2.6.8 基于转换的错误学习方法138
2.6.9 条件随机场141
2.7 词类模型142
2.8 未登录词识别144
2.8.1 未登录人名144
2.8.2 提取候选人名145
2.8.3 最长人名切分153
2.8.4 一元概率人名切分153
2.8.5 二元概率人名切分156
2.8.6 未登录地名159
2.8.7 未登录企业名160
2.9 平滑算法160
2.10 机器学习的方法164
2.10.1 最大熵165
2.10.2 条件随机场170
2.11 有限状态机171
2.12 地名切分178
2.12.1 识别未登录地名179
2.12.2 整体流程185
2.13 企业名切分187
2.13.1 识别未登录词188
2.13.2 整体流程190
2.14 结果评测190
2.15 本章小结191
2.16 专业术语193
第3章 英文分析194
3.1 分词194
3.1.1 句子切分194
3.1.2 识别未登录串197
3.1.3 切分边界198
3.2 词性标注199
3.3 重点词汇202
3.4 句子时态203
3.5 本章小结204
第4章 依存文法分析205
4.1 句法分析树205
4.2 依存文法211
4.2.1 中文依存文法211
4.2.2 英文依存文法220
4.2.3 生成依存树232
4.2.4 遍历235
4.2.5 机器学习的方法237
4.3 小结237
4.4 专业术语238
第5章 文档排重239
5.1 相似度计算239
5.1.1 夹角余弦239
5.1.2 最长公共子串242
5.1.3 同义词替换246
5.1.4 地名相似度248
5.1.5 企业名相似度251
5.2 文档排重251
5.2.1 关键词排重251
5.2.2 SimHash254
5.2.3 分布式文档排重268
5.2.4 使用文本排重269
5.3 在搜索引擎中使用文本排重269
5.4 本章小结270
5.5 专业术语270
第6章 信息提取271
6.1 指代消解271
6.2 中文关键词提取273
6.2.1 关键词提取的基本方法273
6.2.2 HITS算法应用于关键词提取275
6.2.3 从网页中提取关键词277
6.3 信息提取278
6.3.1 提取联系方式280
6.3.2 从互联网提取信息281
6.3.3 提取地名282
6.4 拼写纠错283
6.4.1 模糊匹配问题285
6.4.2 正确词表296
6.4.3 英文拼写检查298
6.4.4 中文拼写检查300
6.5 输入提示302
6.6 本章小结303
6.7 专业术语303
第7章 自动摘要304
7.1 自动摘要技术305
7.1.1 英文文本摘要307
7.1.2 中文文本摘要309
7.1.3 基于篇章结构的自动摘要314
7.1.4 句子压缩314
7.2 指代消解314
7.3 Lucene中的动态摘要314
7.4 本章小结317
7.5 专业术语318
第8章 文本分类319
8.1 地名分类321
8.2 错误类型分类321
8.3 特征提取322
8.4 关键词加权法326
8.5 朴素贝叶斯330
8.6 贝叶斯文本分类336
8.7 支持向量机336
8.7.1 多级分类345
8.7.2 规则方法347
8.7.3 网页分类350
8.8 最大熵351
8.9 信息审查352
8.10 文本聚类353
8.10.1 K均值聚类方法353
8.10.2 K均值实现355
8.10.3 深入理解DBScan算法359
8.10.4 使用DBScan算法聚类实例361
8.11 本章小结363
8.12 专业术语363
第9章 文本倾向性分析364
9.1 确定词语的褒贬倾向367
9.2 实现情感识别368
9.3 本章小结372
9.4 专业术语373
第10章 问答系统374
10.1 问答系统的结构375
10.1.1 提取问答对376
10.1.2 等价问题376
10.2 问句分析377
10.2.1 问题类型377
10.2.2 句型381
10.2.3 业务类型381
10.2.4 依存树381
10.2.5 指代消解383
10.2.6 二元关系383
10.2.7 逻辑表示386
10.2.8 问句模板386
10.2.9 结构化问句模板389
10.2.10 检索方式390
10.2.11 问题重写395
10.2.12 提取事实395
10.2.13 验证答案398
10.2.14 无答案的处理398
10.3 知识库398
10.4 聊天机器人399
10.4.1 交互式问答401
10.4.2 垂直领域问答系统402
10.4.3 语料库405
10.4.4 客户端405
10.5 自然语言生成405
10.6 依存句法406
10.7 提取同义词410
10.7.1 流程410
10.8 本章小结411
10.9 术语表412
第11章 语音识别413
11.1 总体结构414
11.1.1 识别中文416
11.1.2 自动问答417
11.2 语音库418
11.3 语音合成419
11.3.1 归一化420
11.4 语音420
11.4.1 标注424
11.4.2 相似度424
11.5 Sphinx424
11.5.1 中文训练集426
11.6 Julius429
11.7 本章小结429
11.8 术语表429
参考资源430
后记431
內容試閱
10.4 聊天机器人
离线时,可以有个代替本人的自动对话系统来和来人对话。实现时,对每个人分别建立惯用法。例如对肯定答复,有人喜欢说:好的呀;有人喜欢说:可以。根据对话历史记录对个人画像。
对话任务是由一系列的对话行为Dialogue Act简称DA组成的,如提问回答确认。
对话行为Dialog Act是指一个语句在行为方面的功能,如提问(Question)、陈述(Statement)、确认(Confirmation)等。事实上,人们在对话过程中可以很清楚地区分各种不同的对话行为(DA),这样,人与人之间才可以交谈,不会出现文不对题、牛头不对马嘴的现象。因此,人机交互中,如果系统能够知道用户语句的对话行为,对于理解用户语句,保持人机交流是非常有用的。
航班信息系统EasyFlight是一个特定领域的对话应用,其中的对话行为DA比较简单,涉及到系统用户的对话行为主要有以下几种。
?提问(Question):提问是用户使用最多的一种对话行为。通过提问,用户告诉系统自己需要什么样的信息。与英语不同,汉语中的问句没有严格的语序要求,疑问词的选择十分灵活,疑问词的位置几乎可以在句子的任何地方。EasyFlight中的提问主要有两种情况:一种是有明确的疑问词,如什么、哪些、多少、有没有;另一种语句很难找到一个真正的疑问词,但它有语气助词,如这个句子后天有从深圳回北京的票吗?
?陈述(Statement):用户回答系统提问时常用的一种对话行为,常用于给出查询信息,如大概中午十二点左右的。
?确认(Confirmation):确认分为两种:肯定确认和否定确认,如对,订三张票。
?问候(Greeting):引导对话开始的对话行为,如您好。
?感谢和再见(ThankGoodBye):表示对话结束的对话行为,如谢谢帮忙。

对话行为分类的研究中,一般使用基于文字信息的方法,如用N-gram的方法;而利用韵律信息是另外一种对话行为分类的方法。有些情况下,仅仅从文字上难以区分对话行为,如下面两个句子:
?他拿了第一名。(陈述)
?他拿了第一名?(反问)

这两个句子文字上完全相同,却是截然不同的两种对话行为(DA)。前一句话只是简单地陈述一个事实;而后面一句却包含了强烈的反问语气,表明说话人不太相信这个事实,希望对话的另一方给出解释或者说明,而且说话人强调的内容不同也可以反映他怀疑的内容不同(如强调他表示说话人不相信第一名是他,而强调第一名表示不相信他会取得那么好的成绩)。这时候,韵律是最好的特征,它可以反映说话人的不同语气,从而区分对话行为。
对话管理器(Dialogue Manager简称DM)记录当前对话状态,DM根据输入对话行为更新状态并选择回应对话行为。
聊天机器人Alice有40,000多个模板,也是采用了模式匹配的方法来检索最合适的回答。使用Artificial Intelligence Markup Language简称为AIML存储模式,也就是问答对。Alice采用了一种很好的扩充机制,AIML文件可以进行内联,许多包含特殊领域知识的AIML文件可以方便地合并成一个更大的知识库。
AIML的例子:


你叫什么



模板中可以使用变量,例如:
我叫

Think是一个模板标签,表示执行指令但是不输出答案。例如,执行加法的例子:
* PLUS *

AIML相关的实现见https:github.comdawnofmusicElsbeth。
例如,询问天气,系统根据用户的IP地址或者手机所在位置得到提问者的位置。系统返回最近多少天的天气信息。用户进一步可以更改要查询的城市。
把用户输入的拼音串转换成汉字,或者把繁体中文转换成简体中文。
给机器人说:翻译,how old are you.,机器人应该能够返回一个翻译结果。

 

 

書城介紹  | 合作申請 | 索要書目  | 新手入門 | 聯絡方式  | 幫助中心 | 找書說明  | 送貨方式 | 付款方式 香港用户  | 台灣用户 | 海外用户
megBook.com.hk
Copyright © 2013 - 2024 (香港)大書城有限公司  All Rights Reserved.