新書推薦:
《
我真正想要什么?:智慧瑜伽答问/正念系列
》
售價:HK$
58.2
《
元朝理财记 从成吉思汗的崛起到元朝的衰亡
》
售價:HK$
98.6
《
欧洲史:一本书历览欧洲数千年兴衰起伏,理解欧洲文明何以铸就今日世界
》
售價:HK$
333.8
《
趣学CCNA——路由与交换(第2版)
》
售價:HK$
100.6
《
世界航空地理(世界国别与区域地理研究丛书)
》
售價:HK$
244.2
《
学术的中心:英法德美
》
售價:HK$
87.4
《
为什么要读人类学
》
售價:HK$
77.3
《
井邑无衣冠 : 地方视野下的唐代精英与社会
》
售價:HK$
95.2
|
編輯推薦: |
(1)作者权威:科大讯飞大数据及人工智能技术专家于俊最新力作,曾撰写《Spark核心技术与高级应用》《Spark机器学习进阶实战》,广受好评。
(2)专家力荐:王士进(认知智能国家重点实验室副主任、讯飞研究院副院长)、李直旭(复旦大学研究员、博士生导师)、徐童(中国科学技术大学教授)联袂推荐。
(3)一书学透:详解知识图谱构建8个核心步骤,涵盖知识图谱落地的8个关键场景。
(4)内容前沿:剖析CCKS近3年自然语言知识问答评测、生活服务问答评测、开放知识问答评测任务方案。
(5)掌握内涵:援引中国古典著作精选名句揭示知识图谱的内涵。引导读者站在哲学视角来理解知识图谱,看透本质,从而应对应用过程中出现的各种问题。
|
內容簡介: |
这是一本综合介绍知识图谱构建与行业实践的著作,是作者多年从事知识图谱与认知智能应用落地经验的总结,得到了多位知识图谱资深专家的推荐。
本书以通俗易懂的方式来讲解知识图谱相关的知识,尤其对从零开始构建知识图谱过程中需要经历的步骤,以及每个步骤需要考虑的问题都给予较为详细的解释。
本书基于实际业务进行抽象,结合知识图谱的7个构建步骤,深入分析知识图谱技术应用以及8个行业综合案例的设计与实现。
全书分为基础篇、构建篇、实践篇,共16章内容。
基础篇(第1章),介绍知识图谱的定义、分类、发展阶段,以及构建方式、逻辑/技术架构、现状与应用场景等。
构建篇(第2~8章),详细介绍知识抽取、知识表示、知识融合、知识存储、知识建模、知识推理、知识评估与运维等知识图谱构建的核心步骤,并结合实例讲解应用方法。
实践篇(第9~16章),详细讲解知识图谱的综合应用,涵盖知识问答评测、知识图谱平台、智能搜索、图书推荐系统、开放领域知识问答、交通领域知识问答、汽车领域知识问答、金融领域推理决策。
|
關於作者: |
于 俊
中国科学技术大学电子信息专业博士研究生,科大讯飞大数据及人工智能技术专家,安徽大学计算机技术专业硕士生导师,CCF高级会员。有超过15年的大数据及人工智能算法工程化经验,专注大数据分析及数据价值挖掘、大数据及人工智能技术应用落地。著有《Spark核心技术与高级应用》《Spark机器学习进阶实战》等书。
李雅洁
华中科技大学应用统计硕士,在知识图谱、自然语言处理、大数据分析与挖掘、机器学习等领域有丰富的研究和开发经验。精通Python、R语言以及Spark等大数据框架,擅长自然语言处理及知识图谱构建。
彭加琪
中国科学技术大学计算机科学硕士,科大讯飞核心研发平台主管,负责AI数据平台和知识中台建设,精通Java、Python等编程语言,擅长分布式系统建设以及企业级知识图谱构建与应用。
程知远
悉尼大学数据科学硕士,科大讯飞大数据工程师,负责智慧教学产品及学生行为分析的算法研究及引擎实现。精通Java、Python等编程语言,擅长分布式系统建设以及企业级知识图谱构建与应用。
|
目錄:
|
目 录
前言
基础篇
第1章 理解知识图谱 / 2
1.1 知识图谱概述 / 2
1.1.1 知识定义及分类 / 3
1.1.2 知识图谱定义 / 4
1.1.3 知识图谱分类 / 5
1.1.4 知识图谱发展阶段 / 8
1.2 知识图谱架构 / 8
1.2.1 构建方式 / 8
1.2.2 逻辑架构 / 9
1.2.3 技术架构 / 9
1.3 知识图谱现状 / 13
1.3.1 学术界研究现状 / 13
1.3.2 工业界应用现状 / 13
1.4 知识图谱应用场景 / 14
1.4.1 智能搜索 / 14
1.4.2 推荐系统 / 15
1.4.3 知识问答 / 15
1.4.4 推理决策 / 16
1.5 本章小结 / 16
构建篇
第2章 知识抽取 / 18
2.1 知识抽取概述 / 18
2.1.1 知识抽取的定义 / 19
2.1.2 知识抽取的任务 / 20
2.2 知识抽取的方法 / 26
2.2.1 面向结构化数据 / 26
2.2.2 面向半结构化数据 / 28
2.2.3 面向非结构化数据 / 30
2.3 知识抽取实例 / 37
2.3.1 Deepdive的安装
和配置 / 38
2.3.2 实验步骤 / 39
2.3.3 模型构建 / 47
2.4 本章小结 / 49
第3章 知识表示 / 50
3.1 知识表示概述 / 50
3.1.1 知识表示的定义 / 50
3.1.2 知识表示的任务 / 51
3.2 知识表示的方法 / 51
3.2.1 基于符号的知识表示 / 51
3.2.2 基于向量的知识表示 / 60
3.3 知识表示实例 / 64
3.3.1 环境配置 / 64
3.3.2 生成映射文件 / 65
3.3.3 将MySQL数据转为RDF
三元组 / 67
3.4 本章小结 / 68
第4章 知识融合 / 69
4.1 知识融合概述 / 69
4.1.1 知识融合的定义 / 70
4.1.2 知识融合的任务 / 70
4.2 知识融合的方法 / 73
4.2.1 本体对齐方法 / 73
4.2.2 实体对齐方法 / 77
4.3 知识融合实例 / 80
4.3.1 环境配置 / 81
4.3.2 预处理与匹配 / 81
4.3.3 结果评估 / 84
4.4 本章小结 / 85
第5章 知识存储 / 86
5.1 知识存储概述 / 86
5.1.1 知识存储的定义 / 86
5.1.2 知识存储的任务 / 87
5.2 知识存储的方法 / 89
5.2.1 基于关系型数据库的
知识存储 / 89
5.2.2 基于NoSQL的
知识存储 / 92
5.2.3 基于分布式的
知识存储 / 96
5.3 知识存储实例 / 98
5.3.1 使用Apache Jena
存储数据 / 98
5.3.2 使用Neo4j数据库
存储数据 / 98
5.4 本章小结 / 103
第6章 知识建模 / 104
6.1 知识建模概述 / 104
6.1.1 知识建模的定义 / 104
6.1.2 知识建模的任务 / 107
6.2 知识建模的方法 / 109
6.2.1 手工建模方法 / 109
6.2.2 半自动建模方法 / 113
6.2.3 本体自动建模方法 / 114
6.3 知识建模实例 / 116
6.3.1 创建项目实例 / 117
6.3.2 创建本体关系和属性 / 118
6.3.3 知识图谱可视化 / 120
6.4 本章小结 / 121
第7章 知识推理 / 122
7.1 知识推理概述 / 122
7.1.1 知识推理的定义 / 122
7.1.2 知识推理的任务 / 123
7.2 知识推理的方法 / 124
7.2.1 基于逻辑规则的推理 / 124
7.2.2 基于知识表示学习的推理 / 131
7.2.3 基于神经网络的推理 / 134
7.2.4 混合推理 / 136
7.3 知识推理实例 / 137
7.4 本章小结 / 139
第8章 知识评估与运维 / 140
8.1 知识评估与运维概述 / 140
8.1.1 知识评估概述 / 141
8.1.2 知识运维概述 / 142
8.2 知识评估与运维的任务 / 143
8.2.1 知识评估任务 / 143
8.2.2 知识运维任务 / 147
8.3 知识评估与运维流程 / 149
8.3.1 知识评估流程 / 149
8.3.2 知识运维流程 / 150
8.4 本章小结 / 151
实践篇
第9章 知识问答评测 / 154
9.1 知识问答系统概述 / 154
9.1.1 知识问答系统定义 / 155
9.1.2 知识问答问题分类 / 155
9.1.3 知识问答评测技术方案 / 157
9.2 自然语言知识问答评测 / 159
9.2.1 任务背景 / 159
9.2.2 数据分析 / 159
9.2.3 技术方案 / 160
9.2.4 任务结果 / 163
9.3 生活服务知识问答评测 / 164
9.3.1 任务背景 / 164
9.3.2 数据分析 / 164
9.3.3 技术方案 / 165
9.3.4 任务结果 / 168
9.4 开放知识问答评测 / 168
9.4.1 任务背景 / 168
9.4.2 数据分析 / 168
9.4.3 技术方案 / 169
9.4.4 任务结果 / 172
9.5 本章小结 / 172
第10章 知识图谱平台 / 173
10.1 知识图谱平台建设背景 / 173
10.2 知识图谱平台基本功能 / 175
10.3 AiMind知识图谱平台 / 175
10.3.1 数据管理 / 176
10.3.2 知识建模 / 180
10.3.3 知识抽取 / 185
10.3.4 知识融合 / 189
10.3.5 知识管理 / 191
10.3.6 知识应用 / 194
10.4 本章小结 / 196
第11章 智能搜索实践 / 197
11.1 智能搜索背景 / 197
11.2 智能搜索业务设计 / 198
11.2.1 场景设计 / 198
11.2.2 知识图谱设计 / 199
11.2.3 模块设计 / 200
11.3 数据获取与预处理 / 201
11.3.1 环境搭建 / 202
11.3.2 数据获取 / 202
11.3.3 知识抽取 / 203
11.3.4 知识存储 / 206
11.4 基于Jena的知识推理 / 207
11.4.1 OWL推理 / 208
11.4.2 Jena规则推理 / 209
11.5 基于 Elasticsearch的
知识搜索 / 210
11.6 本章小结 / 216
第12章 图书推荐系统实践 / 217
12.1 推荐系统背景 / 217
12.2 图书推荐业务设计 / 219
12.2.1 场景设计 / 219
12.2.2 知识图谱设计 / 220
12.2.3 模块设计 / 221
12.3 数据预处理 / 222
12.3.1 环境搭建 / 223
12.3.2 知识抽取 / 224
12.3.3 数据生成 / 225
12.3.4 知识表示 / 227
12.3.5 知识存储 / 229
12.4 模型训练与评估 / 231
12.4.1 模型训练 / 231
12.4.2 模型评估 / 234
12.5 推荐结果呈现 / 235
12.6 本章小结 / 235
第13章 开放领域知识问答实践 / 236
13.1 知识问答背景 / 236
13.2 知识问答业务设计 / 237
13.2.1 场景设计 / 237
13.2.2 知识图谱设计 / 239
13.2.3 模块设计 / 240
13.3 数据预处理 / 241
13.3.1 环境搭建 / 241
13.3.2 数据获取 / 241
13.3.3 知识表示与存储 / 242
13.4 问句识别及问答实现 / 246
13.4.1 实体识别与链接 / 246
13.4.2 向量建模 / 248
13.4.3 选取自动问答的答案 / 251
13.5 问答结果呈现 / 252
13.6 本章小结 / 254
第14章 交通领域知识问答实践 / 255
14.1 交通领域背景 / 255
14.2 问答业务设计 / 256
14.2.1 场景设计 / 256
14.2.2 知识图谱设计 / 257
14.2.3 模块设计 / 258
14.3 数据预处理 / 259
14.3.1 环境搭建 / 259
14.3.2 数据生成 / 259
14.3.3 知识抽取 / 261
14.3.4 知识表示 / 262
14.3.5 知识存储 / 262
14.4 知识问答系统实现 / 264
14.5 问答结果呈现 / 266
14.6 本章小结 / 267
第15章 汽车领域知识问答实践 / 268
15.1 汽车领域背景 / 268
15.2 问答业务设计 / 269
15.2.1 场景设计 / 269
15.2.2 知识图谱设计 / 270
15.2.3 模块设计 / 273
15.3 数据预处理 / 274
15.3.1 环境搭建 / 275
15.3.2 数据导入 / 275
15.3.3 数据生成 / 277
15.3.4 知识抽取 / 279
15.3.5 知识推理 / 282
15.4 答案匹配与问答系统实现 / 284
15.4.1 答案匹配 / 284
15.4.2 问答系统实现 / 285
15.5 问答结果呈现 / 286
15.6 本章小结 / 288
第16章 金融领域推理决策实践 / 289
16.1 金融决策背景 / 289
16.2 信贷反欺诈业务设计 / 290
16.2.1 场景设计 / 290
16.2.2 知识图谱设计 / 291
16.2.3 模块设计 / 291
16.3 数据预处理 / 292
16.3.1 环境搭建 / 292
16.3.2 数据生成 / 293
16.3.3 知识抽取 / 296
16.3.4 知识表示 / 298
16.3.5 知识存储 / 298
16.4 推理决策实现 / 299
16.4.1 基于自定义规则的Jena
推理机的推理 / 300
16.4.2 基于SPARQL查询语句
的推理 / 302
16.4.3 基于Jena本体模型
的推理 / 304
16.5 本章小结 / 307
|
內容試閱:
|
前 言
临渊羡鱼,不如退而结网。
知识图谱就是一张网,一张基于现实世界的概念、实体、关系、属性构建起来的结构化知识网络。知识图谱作为人工智能的底层支撑和核心技术,能够“帮助”人工智能对现实世界中复杂、相互联结的数据进行理解与处理,使机器具备理解、分析和决策的能力,并且更加接近人类认知世界的水平,从而成功应用于智能搜索、推荐系统、知识问答、推理决策等领域。
本书从诸多中国古典著作中精选名句,并结合知识图谱技术精髓进行关联讲解,引导读者以哲学的思考方式来理解知识图谱的内涵,并使用知识图谱解决应用过程中出现的各种问题。
为什么要写这本书
2019年春天,随着大数据赋能业务逐渐兴起,科大讯飞大数据研究院大数据分析与算法团队开始响应公司号召,扎根于此业务,希望能够基于大数据分析与算法从海量数据中学习并自动决策,有效解决数据分析和挖掘瓶颈。而扎根业务以后,我们发现业务需求更多的是数据治理以及知识图谱等,需要通过构建行业知识图谱来支撑业务发展,以解决实际业务场景的问题。
2019年秋天,在机械工业出版社策划编辑的建议下,笔者决定和小伙伴们一起朝着新的目标努力——编写一本知识图谱构建与应用的书籍。
在本书的写作过程中,知识图谱技术也在不断变化。秉承大道至简的原则,我们一方面尽可能在知识图谱构建章节统筹各种概念,另一方面尽可能在实践章节跳出概念给出应用案例。笔者希望能抛砖引玉,以个人的一些想法和见解,为读者拓展出更深入、更全面的思路。
本书只是一个开始,如何基于海量数据使用知识图谱技术解决更多业务问题,还需要无数的知识图谱从业人员前赴后继,越过漫漫雄关,共同创造美好的知识图谱新时代。
本书特色
本书结合知识图谱的抽取、表示、融合、存储、建模、推理、评估等构建技术进行讲解,并在构建基础上基于实际业务进行抽象,最后给出知识图谱技术的应用案例。本书希望帮助读者完成知识图谱技术栈的学习和实践,以便读者厘清知识图谱相关内容,降低学习成本。
本书以通俗易懂的方式讲解知识图谱相关的知识,尤其对从零开始构建知识图谱过程中需要经历的步骤以及每个步骤需要考虑的问题,给出了比较详细的解释。
读者对象
(1)对知识图谱感兴趣的读者
伴随着人工智能时代的到来,很多工作都需要使用知识图谱分析与挖掘数据深层关系并有效推理知识。对这部分读者来说,本书的内容能够帮助他们加深对知识图谱的构建、应用场景和存在价值的理解。
(2)从事知识图谱构建、开发的人员
通过学习知识图谱实践案例,这部分读者可以掌握知识图谱构建、开发的方法,快速地构建知识图谱。可以说,本书提供了一条捷径,同时能够缩小知识图谱构建开发人员与算法研究人员之间的鸿沟,帮助他们掌握知识图谱相关知识。
(3)从事知识图谱算法、研究的人员
对从事知识图谱算法、研究的人员来说,通过本书他们能够身临其境地“体验”各种场景,了解各种知识图谱在不同场景下的优缺点,本书对他们解决生产环境中遇到的知识图谱、数据挖掘等问题有很好的借鉴作用。
(4)设计知识图谱架构及技术方案的人员
对设计知识图谱架构及技术方案的人员来说,本书能够帮助他们构建知识图谱的应用并进行效果闭环验证。读者只有对知识图谱的功能、效率、优缺点等有了全面的了解,才能在架构设计中综合考虑各种因素,设计出高效、稳定的知识图谱架构。
如何阅读本书
在结构安排上,本书分为“基础篇”“构建篇”“实践篇”,共16章内容,从知识图谱概念引出知识图谱构建技术,再到多个行业实践方案的设计思路与代码实现,层层推进,便于读者系统学习与落地应用。
基础篇(第1章),介绍知识图谱的定义、分类、发展阶段,以及构建方式、逻辑/技术架构、现状与应用场景等。
构建篇(第2~8章),详细介绍知识抽取、知识表示、知识融合、知识存储、知识建模、知识推理、知识评估与运维等,并结合实例讲解应用方法。
实践篇(第9~16章),详细讲解知识图谱的综合应用,涵盖知识问答评测、知识图谱平台,以及智能搜索、图书推荐系统、开放领域知识问答、交通领域知识问答、汽车领域知识问答、金融领域推理决策实践。
勘误和支持
由于笔者水平有限,撰写时间仓促,书中难免会出现一些错误或者不准确的地方,恳请读者批评指正。本书代码和数据目录:https: //github.com/datadance/book3-kg.git。如果你有更多的宝贵意见,可以通过知识图谱技术交流QQ群435263033或者邮箱datadance@163.com联系我们,期待得到大家的反馈,让我们在知识图谱与人工智能征程中互勉共进。
致谢
感谢合作者李雅洁、彭加琪、程知远;感谢程礼磊、丁辉、丁可、郑英帅、李卫东、林发可、曹伟灿等技术专家,在本书写作遇到困难的时候,他们一直鼓励、支持我,并提供了宝贵的建议,使本书的质量更上一层楼。
感谢机械工业出版社的编辑,在我面临读博压力、二宝出生、团队解散的情况下,在我多少次徘徊在放弃边缘的时刻,他们始终鼓励与引导我,使得我最终完成全部书稿。
本书使用了部分互联网公开数据,包括IBDM电影数据、NLPCC开放数据、图书模拟数据、国泰安数据库上市公司数据等,在这里致以特别感谢。
最后,感谢我的爱人,她的激励给了我奋斗的信心和力量;祝愿我的大宝能够战胜自己,克服注意力缺陷;祝福本书写作期间出生的二宝于宜杨,她的微笑融化了我所有的辛苦,也让我的努力变得更有意义。
谨以此书献给努力奋斗的小伙伴,以及众多热爱知识图谱技术的朋友!
于 俊
|
|