新書推薦:
《
英伟达之道 黄仁勋和他的科技帝国 英伟达创始人兼CEO黄仁勋授权采访图书 全面公开英伟达成为全球市值最高公司的奥秘 讲述黄仁勋的传奇人生和创新历程
》
售價:HK$
86.9
《
甲骨文丛书·德意志人:一部诗人、作家、哲学家和思想家的自传
》
售價:HK$
129.8
《
盛世滋生:清代皇权与地方治理
》
售價:HK$
162.8
《
循序渐进Node.js企业级开发实践
》
售價:HK$
97.9
《
海外中国研究·中国早期的星象学和天文学
》
售價:HK$
152.9
《
诡计策划师 午夜文库
》
售價:HK$
53.9
《
管道的力量(畅销美国30年的财富经典,销量超100万册)
》
售價:HK$
54.8
《
长安曾有少年郎
》
售價:HK$
43.8
編輯推薦:
丰富的案例解析,书中展示了Spark在各行各业做深度学习的应用实例。
基于Python,与当前主流深度学习库(TensorFlow和Keras等)结合,教你如何在Spark中实现和部署深度学习模型。
本书以即学即用的方式进行讲解,任何没有编程经验的人,即使是没有使用过Python语言的人,都可以按照提示逐步地轻松实现本书中的算法。
內容簡介:
本书开头部分讲了如何按照深度学习的需求来配置Apache Spark,以实现不同类型的神经网络,接下来讲述了在分布式环境中实现深度学习涉及的常见和不那么常见的需求。另外,你还将学到Spark中的深度学习代码,这些代码可以复用到其他类似的问题中,或者稍作改动用于略有不同的问题。本书将带你一起用Spark对数据进行分流和聚类,用TensorFlow、Deeplearning4j和 Caffe在Spark中实现和部署深度学习模型,例如CNN、RNN和 LSTM。学完本书的内容,你将能够在Spark上训练和部署有效的深度学习模型。
關於作者:
Ahmed Sherif是一名数据科学家,自2005年以来一直从事各种角色的数据研究。他从2013年开始使用BI解决方案并慢慢转向数据科学。2016年,他从西北大学获得了预测分析硕士学位,在那里他研究深度学习的科学与应用和同时使用Python和R语言的预测建模。最近,他一直在使用Azure在云端开发机器学习和深度学习解决方案。2016年,他出版了他的第一本书《实用商业智能》。他目前是微软的数据和人工智能技术解决方案专业人员。
Amrith Ravindra博士是一位机器学习爱好者,拥有电气与工业工程学位。在攻读硕士学位的过程中,他更深入地研究机器学习世界,并培养了对数据科学的热爱。工程专业的研究生课程给他提供了数学背景,使他进入深度学习的职业生涯。他在坦帕市举行的当地数据科学聚会上会见了Ahmed Sherif。他们决定合作写一本关于他们最喜欢的机器学习算法的书。他希望这本书能够帮助他实现成为数据科学家并积极为机器学习做出贡献的最终目标。
黄友良,计算机应用技术专业博士,毕业于北京师范大学,2009年7月-至今就职于北京中医药大学管理学院,中华医学会教育技术分会第八、九届委员会青年委员,中国中医药信息研究会人工智能分会理事,Adobe中国认证讲师。
目錄 :
目录
1 为深度学习开发设置Spark 1
介绍 1
下载Ubuntu桌面映像 2
在macOS中使用VMWare Fusion安装和配置Ubuntu 3
在Windows中使用Oracle VirtualBox安装和配置Ubuntu 8
为谷歌云平台安装和配置Ubuntu桌面端 11
在Ubuntu桌面端安装和配置Spark 23
集成Jupyter Notebook与Spark 29
启动和配置Spark集群 33
停止Spark集群 34
2 在Spark中创建神经网络 36
介绍 36
在PySpark中创建数据帧 37
在PySpark数据帧中操作列 41
将PySpark数据帧转换为数组 42
在散点图中将数组可视化 46
设置输入神经网络的权重和偏差 49
规范化神经网络的输入数据 52
验证数组以获得最佳的神经网络性能 55
使用sigmoid设置激活函数 57
创建sigmoid导数 60
计算神经网络中的代价函数 62
根据身高值和体重值预测性别 66
预测分数并进行可视化 69
3 卷积神经网络的难点 72
介绍 72
难点1:导入MNIST图像 73
难点2:可视化MNIST图像 77
难点3:将MNIST图像导出为文件 80
难点4:增加MNIST图像 82
难点5:利用备用资源训练图像 86
难点6:为卷积神经网络优先考虑高级库 88
4 循环神经网络的难点 94
介绍 94
前馈网络简介 95
循环神经网络的顺序工作 103
难点1:梯度消失问题 108
难点2:梯度爆炸问题 111
长短期记忆单元的顺序工作 114
5 用Spark机器学习预测消防部门呼叫 119
介绍 119
下载旧金山消防局呼叫数据集 119
识别逻辑回归模型的目标变量 123
为逻辑回归模型准备特征变量 130
应用逻辑回归模型 137
评估逻辑回归模型的准确度 142
6 在生成网络中使用LSTM 145
介绍 145
下载将用作输入文本的小说书籍 145
准备和清理数据 151
标记句子 156
训练和保存LSTM模型 158
使用模型生成类似的文本 163
7 使用TF-IDF进行自然语言处理 171
介绍 171
下载治疗机器人会话文本数据集 172
分析治疗机器人会话数据集 176
数据集单词计数可视化 178
计算文本的情感分析 180
从文本中删除停用词 184
训练TF-IDF模型 188
评估TF-IDF模型性能 192
比较模型性能和基线分数 194
8 使用XGBoost进行房地产价值预测 196
下载金斯县房屋销售数据集 196
执行探索性分析和可视化 199
绘制价格与其他特征之间的相关性 210
预测房价 223
9 使用长短期记忆单元预测苹果公司股票市场价格 229
下载苹果公司的股票市场数据 229
探索和可视化苹果公司的股票市场数据 233
准备用于提升模型性能的股票市场数据 238
构建长短期记忆单元模型 246
评估长短期记忆单元模型 249
10 使用深度卷积网络进行人脸识别 252
介绍 252
下载MIT-CBCL数据集并将其加载到内存中 252
绘制并可视化目录中的图像 257
图像预处理 262
模型构建、训练和分析 269
11 使用Word2Vec创建和可视化单词向量 277
介绍 277
获取数据 277
导入必要的库 281
准备数据 284
构建和训练模型 288
进一步可视化 293
进一步分析 300
12 使用Keras创建电影推荐引擎 304
介绍 304
下载MovieLens数据集 305
操作和合并MovieLens数据集 312
探索MovieLens数据集 318
为深度学习流水线准备数据集 322
应用Keras深度学习模型 327
评估推荐引擎的准确度 331
13 使用TensorFlow在Spark中进行图像分类 333
介绍 333
下载梅西和罗纳尔多各30张图像 334
使用深度学习包安装PySpark 339
将图像加载到PySpark数据帧 341
理解迁移学习 344
创建用于图像分类训练的流水线 346
评估模型性能 348
微调模型参数 350
內容試閱 :
前言
随着深度学习在现代各行业中迅速得到广泛应用,各个机构都在寻找将流行的大数据工具与高效的深度学习库结合起来的方法。这将有助于深度学习模型以更高的效率和更快的速度进行训练。
在本书的帮助下,你将通过学习特定的操作来得到深度学习算法的结果,而不会陷入理论的困境。从为深度学习设置Apache Spark到实现各种类型的神经网络,本书解决了大多数常见和不太常见的问题,以便在分布式环境中执行深度学习。除此之外,你还可以访问Spark的深度学习代码,这些代码可以用来回答类似问题,也可以在调整后回答稍有不同的问题。你还将学习如何用Spark对数据进行流处理和集群处理。一旦掌握了基础知识,你将探索如何使用TensorFlow和Keras等流行库,如卷积神经网络、循环神经网络和长短期记忆网络,在Spark中实现和部署深度学习模型。最后,这是一本旨在教授如何在Spark中实际应用模型的指南,所以我们不会深入讨论本书使用的模型背后的理论和数学知识。
在本书的最后,你将拥有在Apache Spark上部署高效深度学习模型的专业知识。
本书的读者对象
本书适用于对机器学习和大数据概念有基本了解的人,以及希望通过自上而下而非自下而上的方法来扩展已有知识的人。本书以即学即用的方式进行讲解,任何没有编程经验的人,即使是没有使用过Python语言的人,都可以按照提示逐步地轻松实现本书中的算法。本书中的大多数代码都是简单易懂的,每个代码块执行一个特定的功能,或者执行挖掘、转换和将数据拟合到深度学习模型中的操作。
本书旨在通过介绍有趣的项目(如股票价格预测)为读者提供实践经验的同时,让读者对深度学习和机器学习概念有更深入的理解。这可能以提供在线资源链接的方式展现,如已发表的论文、教程和指南,它贯穿本书的每一章。
本书包括哪些内容
第1章:为深度学习开发设置Spark。本章包括在虚拟Ubuntu桌面环境下设置Spark开发所需的所有内容。
第2章:在Spark中创建神经网络。本章介绍了从头开始开发神经网络而不使用任何深度学习库(如TensorFlow或Keras)的过程。
第3章:卷积神经网络的难点。本章介绍了图像识别中与卷积神经网络相关的一些难点,以及解决问题的方法。
第4章:循环神经网络的难点。本章介绍了前馈神经网络和递归神经网络。我们描述了循环神经网络的一些难点,以及如何使用LSTM解决它们。
第5章:用Spark机器学习预测消防部门呼叫。我们将使用Spark机器学习开发一个分类模型,用于预测来自旧金山市消防部门的呼叫。
第6章:在生成网络中使用LSTM。本章给出了一种使用小说或大型文本语料库作为输入数据来定义和训练LSTM模型的实用方法,同时还使用训练模型生成自己的输出序列。
第7章:使用TF-IDF进行自然语言处理。本章介绍了分类聊天机器人对话数据升级的步骤。
第8章:使用XGBoost进行房地产价值预测。本章重点介绍了如何使用金斯县房屋销售数据集来训练一个简单的线性模型,并使用它来预测房价,然后使用一个稍微复杂的模型来做同样的事情并提高预测的准确度。
第9章:使用长短期记忆单元预测苹果公司股票的市场价格。本章的重点是使用Keras中的LSTM创建深度学习模型,以预测苹果公司股票的市场价格。
第10章:使用深度卷积网络进行人脸识别。本章利用10个不同受试者的面部图像的MIT-CBCL数据集来训练和测试深度卷积神经网络模型。
第11章:使用Word2Vec创建和可视化单词向量。本章重点关注向量在机器学习中的重要性,并指导用户利用谷歌的Word2Vec模型训练不同的模型,并可视化小说中产生的单词向量。
第12章:使用Keras创建电影推荐引擎。本章专注于为使用深度学习库Keras的用户构建电影推荐引擎。
第13章:使用TensorFlow在Spark中进行图像分类。本章专注于利用迁移学习来认识世界知名足球运动员克里斯蒂亚诺罗纳尔多和里奥梅西。
如何更好地利用本书
1. 利用书中提供的链接可以更好地理解本书中使用的一些术语。
2. 互联网是当今世界上最大的大学。观看YouTube、Udemy、edX、Lynda和Coursera等网站提供的有关各种深度学习和机器学习概念的视频。
3. 若仅翻看这本书容易忘记知识点,那么可以在阅读本书时实际执行每一步操作。建议你在浏览每一步操作时打开Jupyter Notebook,这样就可以在阅读本书时实践每一步操作,同时检查你从每个步骤获得的输出。
4. 本书提供的额外参考资料请访问http:www.broadview.com.cn37882进行下载,如正文中标有参见链接1链接2等字样时,即可从上述网站下载的参考资料.pdf文件中进行查询。
下载示例代码文件
你可以从你的账户下载本书的示例代码文件,地址参见链接1。如果你在其他地方购买了本书,则可以访问链接2并通过电子邮件的方式进行注册。
可以按照以下步骤下载示例代码文件。
1. 在链接3所示的网址处登录或注册。
2. 选择Support链接。
3. 单击Code Downloads & Errata选项。
4. 在Search框中输入书名,然后按照屏幕上的说明进行操作。