新書推薦:
《
中国经济发展的新阶段:机会与选择
》
售價:HK$
102.4
《
DK月季玫瑰百科
》
售價:HK$
216.2
《
为你想要的生活
》
售價:HK$
67.9
《
关键改变:如何实现自我蜕变
》
售價:HK$
79.4
《
超加工人群:为什么有些食物让人一吃就停不下来
》
售價:HK$
102.4
《
历史的教训(浓缩《文明的故事》精华,总结历史教训的独特见解)
》
售價:HK$
64.4
《
不在场证明谜案(超绝CP陷入冤案!日本文坛超新星推理作家——辻堂梦代表作首次引进!)
》
售價:HK$
59.8
《
明式家具三十年经眼录
》
售價:HK$
538.2
|
編輯推薦: |
介绍数据科学基本知识的重量级读本,Google数据科学家作品。 数据科学是一个蓬勃发展、前途无限的行业,有人将数据科学家称为21世纪头号性感职业。本书从零开始讲解数据科学工作,教授数据科学工作所必需的黑客技能,并带领读者熟悉数据科学的核心知识数学和统计学。 作者选择了功能强大、简单易学的Python语言环境,亲手搭建工具和实现算法,并精心挑选了注释良好、简洁易读的实现范例。书中涵盖的所有代码和数据都可以在GitHub上下载。通过阅读本书,你可以:学到一堂Python速成课;学习线性代数、统计和概率论的基本方法,了解它们是怎样应用在数据科学中的;掌握如何收集、探索、清理、转换和操作数据;深入理解机器学习的基础;运用k-近邻、朴素贝叶斯、线性回归和逻辑回归、决策树、神经网络和聚类等各种数据模型;探索推荐系统、自然语言处理、网络分析、MapReduce和数据库。
|
內容簡介: |
本书基于易于理解且具有数据科学相关的丰富的库的Python语言环境,从零开始讲解数据科学工作。具体内容包括:Python速成,可视化数据,线性代数,统计,概率,假设与推断,梯度下降法,如何获取数据,k近邻法,朴素贝叶斯算法,等等。作者借助大量具体例子以及数据挖掘、统计学、机器学习等领域的重要概念,详细展示了什么是数据科学。
|
關於作者: |
Joel Grus是Google的一位软件工程师,曾于数家创业公司担任数据科学家。目前住在西雅图,专注于数据科学工作并乐此不疲。偶尔在joelgrus.com发表博客,长期活跃于Twitter @joelgrus。
|
目錄:
|
第1章 导论1
1.1 数据的威力1
1.2 什么是数据科学1
1.3 激励假设:DataSciencester2
1.3.1 寻找关键联系人3
1.3.2 你可能知道的数据科学家5
1.3.3 工资与工作年限8
1.3.4 付费账户10
1.3.5 兴趣主题11
1.4 展望12
第2章 Python速成13
2.1 基础内容13
2.1.1 Python获取13
2.1.2 Python之禅14
2.1.3 空白形式14
2.1.4 模块15
2.1.5 算法16
2.1.6 函数16
2.1.7 字符串17
2.1.8 异常18
2.1.9 列表18
2.1.10 元组19
2.1.11 字典20
2.1.12 集合22
2.1.13 控制流23
2.1.14 真和假24
2.2 进阶内容25
2.2.1 排序25
2.2.2 列表解析25
2.2.3 生成器和迭代器26
2.2.4 随机性27
2.2.5 正则表达式28
2.2.6 面向对象的编程28
2.2.7 函数式工具29
2.2.8 枚举31
2.2.9 压缩和参数拆分31
2.2.10 args 和kwargs32
2.2.11 欢迎来到DataSciencester33
2.3 延伸学习33
第3章 可视化数据34
3.1 matplotlib34
3.2 条形图36
3.3 线图40
3.4 散点图41
3.5 延伸学习44
第4章 线性代数45
4.1 向量45
4.2 矩阵49
4.3 延伸学习51
第5章 统计学53
5.1 描述单个数据集53
5.1.1 中心倾向55
5.1.2 离散度56
5.2 相关58
5.3 辛普森悖论60
5.4 相关系数其他注意事项61
5.5 相关和因果62
5.6 延伸学习63
第6章 概率64
6.1 不独立和独立64
6.2 条件概率65
6.3 贝叶斯定理66
6.4 随机变量68
6.5 连续分布68
6.6 正态分布69
6.7 中心极限定理72
6.8 延伸学习74
第7章 假设与推断75
7.1 统计假设检验75
7.2 案例:掷硬币75
7.3 置信区间79
7.4 P-hacking80
7.5 案例:运行AB测试81
7.6 贝叶斯推断82
7.7 延伸学习85
第8章 梯度下降86
8.1 梯度下降的思想86
8.2 估算梯度87
8.3 使用梯度90
8.4 选择正确步长90
8.5 综合91
8.6 随机梯度下降法92
8.7 延伸学习93
第9章 获取数据94
9.1 stdin和stdout94
9.2 读取文件96
9.2.1 文本文件基础96
9.2.2 限制的文件97
9.3 网络抓取99
9.3.1 HTML 和解析方法99
9.3.2 案例:关于数据的O''Reilly图书101
9.4 使用API105
9.4.1 JSON(和XML)105
9.4.2 使用无验证的API106
9.4.3 寻找API107
9.5 案例:使用Twitter API108
9.6 延伸学习111
第10章 数据工作112
10.1 探索你的数据112
10.1.1 探索一维数据112
10.1.2 二维数据114
10.1.3 多维数据116
10.2 清理与修改117
10.3 数据处理119
10.4 数据调整122
10.5 降维123
10.6 延伸学习129
第11章 机器学习130
11.1 建模130
11.2 什么是机器学习131
11.3 过拟合和欠拟合131
11.4 正确性134
11.5 偏倚- 方差权衡136
11.6 特征提取和选择137
11.7 延伸学习138
第12章 k近邻法139
12.1 模型139
12.2 案例:最喜欢的编程语言141
12.3 维数灾难146
12.4 延伸学习151
第13章 朴素贝叶斯算法152
13.1 一个简易的垃圾邮件过滤器152
13.2 一个复杂的垃圾邮件过滤器153
13.3 算法的实现154
13.4 测试模型156
13.5 延伸学习158
第14章 简单线性回归159
14.1 模型159
14.2 利用梯度下降法162
14.3 最大似然估计162
14.4 延伸学习163
第15章 多重回归分析164
15.1 模型164
15.2 最小二乘模型的进一步假设165
15.3 拟合模型166
15.4 解释模型167
15.5 拟合优度167
15.6 题外话:Bootstrap168
15.7 回归系数的标准误差169
15.8 正则化170
15.9 延伸学习172
第16章 逻辑回归173
16.1 问题173
16.2 Logistic函数176
16.3 应用模型178
16.4 拟合优度179
16.5 支持向量机180
16.6 延伸学习184
第17章 决策树185
17.1 什么是决策树185
17.2 熵187
17.3 分割之熵189
17.4 创建决策树190
17.5 综合运用192
17.6 随机森林194
17.7 延伸学习195
第18章 神经网络196
18.1 感知器196
18.2 前馈神经网络198
18.3 反向传播201
18.4 实例:战胜CAPTCHA202
18.5 延伸学习206
第19章 聚类分析208
19.1 原理208
19.2 模型209
19.3 示例:聚会210
19.4 选择聚类数目k213
19.5 示例:对色彩进行聚类214
19.6 自下而上的分层聚类216
19.7 延伸学习221
第20章 自然语言处理222
20.1 词云222
20.2 n-grams模型 224
20.3 语法227
20.4 题外话:吉布斯采样229
20.5 主题建模231
20.6 延伸学习236
第21章 网络分析237
21.1 中介中心度237
21.2 特征向量中心度242
21.2.1 矩阵乘法242
21.2.2 中心度244
21.3 有向图与PageRank246
21.4 延伸学习248
第22章 推荐系统249
22.1 手工甄筛250
22.2 推荐流行事物250
22.3 基于用户的协同过滤方法251
22.4 基于物品的协同过滤算法254
22.5 延伸学习256
第23章 数据库与SQL257
23.1 CREATE TABLE与INSERT257
23.2 UPDATE259
23.3 DELETE260
23.4 SELECT260
23.5 GROUP BY262
23.6 ORDER BY264
23.7 JOIN264
23.8 子查询267
23.9 索引267
23.10 查询优化268
23.11 NoSQL268
23.12 延伸学习269
第24章 MapReduce270
24.1 案例:单词计数270
24.2 为什么是MapReduce272
24.3 更加一般化的MapReduce272
24.4 案例:分析状态更新273
24.5 案例:矩阵计算275
24.6 题外话:组合器276
24.7 延伸学习277
第25章 数据科学前瞻278
25.1 IPython278
25.2 数学279
25.3 不从零开始279
25.3.1 NumPy279
25.3.2 pandas280
25.3.3 scikit-learn280
25.3.4 可视化280
25.3.5 R281
25.4 寻找数据281
25.5 从事数据科学281
25.5.1 Hacker News282
25.5.2 消防车282
25.5.3 T 恤282
25.5.4 你呢?283
作者简介284
关于封面284
|
|