新書推薦:
《
荷马:伊利亚特(英文)-西方人文经典影印21
》
售價:HK$
107.8
《
我的心理医生是只猫
》
售價:HK$
49.5
《
股权控制战略:如何实现公司控制和有效激励(第2版)
》
售價:HK$
98.8
《
成吉思汗传:看历代帝王将相谋略 修炼安身成事之根本
》
售價:HK$
61.6
《
爱丁堡古罗马史-罗马城的起源和共和国的崛起
》
售價:HK$
76.8
《
人生解忧:佛学入门四十讲
》
售價:HK$
107.8
《
在虚无时代:与马克斯·韦伯共同思考
》
售價:HK$
57.2
《
自然信息图:一目了然的万物奇观
》
售價:HK$
140.8
內容簡介:
本书是一本介绍大数据智能分析的科普书籍, 旨在让更多的人了解和学习互联网时代的机器学习和自 然语言处理技术,以期让大数据技术更好地为我们的生产和生活服务。 全书包括大数据智能基础和大数据智能应用两个部分,共 8 章。大数据智能基础部分有三章:第 1 章 以深度学习为例介绍大数据智能的计算框架;第 2 章以知识图谱为例介绍大数据智能的知识库;第 3 章介 绍大数据背后的计算处理系统。 大数据智能应用部分有 5 章: 第 4 章介绍智能问答, 第 5 章介绍主题模型, 第 6 章介绍个性化推荐系统,第 7 章介绍情感分析与意见挖掘,第 8 章介绍面向社会媒体大数据的语言使 用分析及应用。*后在本书的后记部分为读者追踪大数据智能的**学术材料提供了建议。
關於作者:
刘知远,目前以项目负责人身份主持NSFC青年基金、博士后科学基金等多项研究项目,科研经费累计超过50万元。同时以项目骨干身份参与实验室多项973、863、NSFC重点和面上项目。承担和参与项目列表如下:担任项目负责人的项目 1.2014年-2016年,国家社会科学基金重大项目“基于大规模社交媒体的汉语模因传播机理量化研究”子课题。 2.2013年-2015年,NSFC青年基金项目“基于协同语义计算的社交媒体信息扩散与可信性研究”。 3.2013年-2014年,清华大学-微软联合实验室研究项目“Efficient Chinese Entity Linking for Large-scale Web Corpus to Heterogeneous Entity Networks”。担任项目骨干的项目 1.2014年-2018年,973项目“面向三元空间的互联网中文信息处理理论与方法”。 2.2012年-2015年,NSFC面上项目“关键词抽取与社会标签推荐相结合的中文文本主题词自动标注方法研究”。 3.2012年-2016年,NSFC重点项目“篇章级中文语义分析理论与方法”。 4.2009年-2011年,NSFC面上项目“汉语复杂网络的性质、结构、演化及其典型应用研究”。 5.2007年-2009年,863项目“大规模网络图文数据的语义分类和适度理解技术研究”。+ 6.2011年-2013年,东芝公司研究项目“面向中文文档分类的技术研发”。 7.2011年-2012年,Google公司研究项目“移动查询助理和查询结果摘要”。 8.2010年-2011年,Google公司研究项目“信息标注与社区发现的大规模算法研究”。 9.2009年-2011年,Google公司研究项目“针对流文本集的并行LDA”。
目錄 :
第1 章 深度学习——机器大脑的结构 1
1.1 概述 3
1.1.1 可以做酸奶的面包机——通用机器的概念 3
1.1.2 连接主义 5
1.1.3 用机器设计机器 6
1.1.4 深度网络 6
1.1.5 深度学习的用武之地 7
1.2 从人脑神经元到人工神经元 8
1.2.1 生物神经元中的计算灵感 8
1.2.2 激活函数 9
1.3 参数学习 10
1.3.1 模型的评价 11
1.3.2 有监督学习 11
1.3.3 梯度下降法 12
1.4 多层前馈网络 13
1.4.1 多层前馈网络 14
1.4.2 后向传播算法计算梯度 16
1.5 逐层预训练 17
1.6 深度学习是终极神器吗 19
1.6.1 深度学习带来了什么 19
1.6.2 深度学习尚未做到什么 20
1.7 内容回顾与推荐阅读 21
XII 目 录
1.8 参考文献 21
第2 章 知识图谱——机器大脑中的知识库 23
2.1 什么是知识图谱 25
2.2 知识图谱的构建 27
2.2.1 大规模知识库 27
2.2.2 互联网链接数据 28
2.2.3 互联网网页文本数据 29
2.2.4 多数据源的知识融合 29
2.3 知识图谱的典型应用 30
2.3.1 查询理解(Query Understanding) 30
2.3.2 自动问答(Question Answering) 32
2.3.3 文档表示(Document Representation) 33
2.4 知识图谱的主要技术 34
2.4.1 实体链指(Entity Linking) 34
2.4.2 关系抽取(Relation Extraction) 35
2.4.3 知识推理(Knowledge Reasoning) 37
2.4.4 知识表示(Knowledge Representation) 38
2.5 前景与挑战 39
2.6 内容回顾与推荐阅读 40
2.7 参考文献 41
第3 章 大数据系统——大数据背后的支撑技术 43
3.1 概述 45
3.2 高性能计算技术 46
3.2.1 超级计算机的组成 47
3.2.2 并行计算的系统支持 48
3.3 虚拟化和云计算技术 52
3.3.1 虚拟化技术 52
目 录 XIII
3.3.2 云计算服务 54
3.4 基于分布式计算的大数据系统 55
3.4.1 Hadoop 生态系统 55
3.4.2 Spark 61
3.4.3 典型的大数据基础架构 63
3.5 大规模图计算 63
3.5.1 分布式图计算框架 64
3.5.2 高效的单机图计算框架 65
3.6 NoSQL 66
3.6.1 MongoDB 简介 67
3.7 内容回顾与推荐阅读 69
3.8 参考文献 70
第4 章 智能问答——智能助手是如何炼成的 71
4.1 概述 73
4.2 问答系统的主要组成 77
4.3 文本问答系统 78
4.3.1 问题理解 78
4.3.2 知识检索 81
4.3.3 答案生成 83
4.4 社区问答系统 84
4.4.1 社区问答系统的结构 85
4.4.2 相似问题检索 86
4.4.3 答案过滤 86
4.5 多媒体问答系统 87
4.6 大型问答系统案例:IBM 沃森问答系统 89
4.6.1 沃森的总体结构 89
4.6.2 问题解析 90
4.6.3 知识储备 90
XIV 目 录
4.6.4 检索和候选答案生成 91
4.6.5 可信答案确定 92
4.7 内容回顾与推荐阅读 93
4.8 参考文献 94
第5 章 主题模型——机器的智能摘要利器 97
5.1 概述 99
5.2 主题模型出现的背景 100
5.3 **个主题模型潜在语义分析 102
5.4 **个正式的概率主题模型 104
5.5 **个正式的贝叶斯主题模型 105
5.6 LDA 的概要介绍 106
5.6.1 LDA 的延伸理解——主题模型广义理解 109
5.6.2 模型求解 111
5.6.3 模型评估 112
5.6.4 模型选择:主题数目的确定 113
5.7 主题模型的变形与应用 114
5.7.1 基于LDA 的模型变种 114
5.7.2 基于LDA 的典型应用 115
5.7.3 一个基于主题模型的新浪名人话题排行榜应用 118
5.8 内容回顾与推荐阅读 122
5.9 参考文献 123
第6 章 个性化推荐系统——如何了解电脑背后的TA 129
6.1 概述 131
6.1.1 推荐系统的发展历史 132
6.1.2 推荐无处不在 133
6.1.3 从千人一面到千人千面 133
6.2 个性化推荐的基本问题 134
6.2.1 推荐系统的输入 135
目 录 XV
6.2.2 推荐系统的输出 137
6.2.3 个性化推荐的形式化 137
6.2.4 推荐系统的三大核心问题 138
6.3 典型推荐算法浅析 139
6.3.1 推荐算法的分类 139
6.3.2 典型推荐算法介绍 140
6.3.3 基于矩阵分解的打分预测 146
6.3.4 推荐的可解释性 151
6.3.5 推荐算法的评价 153
6.3.6 我们走了多远 156
6.4 参考文献 160
第7 章 情感分析与意见挖掘——计算机如何了解人类情感 165
7.1 概述 167
7.2 情感分析的主要研究问题 172
7.3 情感分析的主要方法 175
7.3.1 构成情感和观点的基本元素 175
7.3.2 情感极性与情感词典 177
7.3.3 属性-观点对 182
7.3.4 情感分析 184
7.4 主要的情感词典资源 188
7.5 内容回顾与推荐阅读 189
7.6 参考文献 190
第8 章 面向社会媒体大数据的语言使用分析及应用 195
8.1 概述 197
8.2 面向社会媒体的自然语言使用分析 197
8.2.1 词汇的时空传播与演化 198
8.2.2 语言使用与个体差异 200
XVI 目 录
8.2.3 语言使用与社会地位 202
8.2.4 语言使用与群体分析 203
8.3 面向社会媒体的自然语言分析应用 206
8.3.1 社会预测 206
8.3.2 霸凌现象定量分析 207
8.4 未来研究的挑战与展望 208
8.5 参考文献 209
后 记 214
国际学术组织、学术会议与学术论文 214
国内学术组织、学术会议与学术论文 216
如何快速了解某个领域的研究进展 217