新書推薦:
《
古乐钩沉(中国音乐学院60周年校庆中青年学者文集)
》
售價:HK$
132.2
《
我和抑郁症的3000天
》
售價:HK$
66.1
《
与骸骨交谈:我希望每一个真相都被发现
》
售價:HK$
76.2
《
人体使用手册3:自愈力的逻辑(全面解读身体面对疾病时的反应逻辑,学习更多有效的系列家庭按摩)
》
售價:HK$
61.6
《
素描简史:从文艺复兴到现代艺术
》
售價:HK$
436.8
《
智慧宫丛书028·神工智能 诸神与古代世界的神奇造物
》
售價:HK$
87.4
《
街头健身训练指南
》
售價:HK$
266.6
《
留学早规划
》
售價:HK$
76.2
|
編輯推薦: |
囊括高效数据处理技巧,涵盖统计方法、分类算法、机器学习核心原理,直接操作内容并快速检验结果。
熟练掌握R编程,实现快速分析。
R基础到数据处理实操,一册在手,迅速掌握。
利用作者的丰富经验,解决数据分析过程中的多种问题。
|
內容簡介: |
本书以R语言的编程属性为中心,内容涵盖R语言基础理论到实际数据分析,通过分析模型和算法等更实用的示例,讲解了数据可视化、统计分析、数据挖掘、机器学习等实际业务中常用的实操技巧,以及代码生成方法。书中还收录了作者的实战经验和学习体会,可以解决数据分析过程中出现的各种问题。对R语言有一定了解但在实际运用中感到困惑的读者,可以在书中找到多种解题方法,并能够迅速应用于一线业务。
|
關於作者: |
徐珉久
2007年至今,在Google Korea担任软件工程师。曾开发全球检索相关产品,近来负责自然语言处理相关业务,研究如何为用户查询提供更好的检索品质。延世大学计算机工程学士、韩国科学技术院(KAIST)计算机工程硕士、广播通信大学信息统计学学士,积极参与Coursera等组织的MOOC。 个人网站:http:mkseo.pe.kr
|
目錄:
|
推荐语iii
前言 iv
本书结构 vi
第1章 搭建R编程环境 1
1.1 为什么是R 2
1.2 安装R 2
1.2.1 在Windows操作系统中安装R 4
1.2.2 在Linux系统下安装R 6
1.2.3 在Mac OS X中安装R 12
1.3 启动R 15
1.4 查看帮助 16
1.5 R集成开发环境 19
1.6 批处理 21
1.7 使用包 22
参考资料 24
第2章 数据类型 25
2.1 变量 26
2.1.1 变量命名规则 26
2.1.2 变量赋值 26
2.2 调用函数时指定参数 27
2.3 标量 28
2.3.1 数值 28
2.3.2 NA 29
2.3.3 NULL 29
2.3.4 字符串 30
2.3.5 逻辑值 31
2.3.6 因子 32
2.4 向量 34
2.4.1 创建向量 35
2.4.2 访问向量中的数据 36
2.4.3 向量运算 39
2.4.4 连续数字组成的向量 41
2.4.5 保存重复值的向量 42
2.5 列表 43
2.5.1 创建列表 43
2.5.2 访问列表中的数据 44
2.6 矩阵 45
2.6.1 创建矩阵 45
2.6.2 访问矩阵中的数据 48
2.6.3 矩阵运算 49
2.7 数组 52
2.7.1 创建数组 53
2.7.2 访问数组数据 54
2.8 数据框 54
2.8.1 创建数据框 55
2.8.2 访问数据框 57
2.8.3 实用工具函数 59
2.9 类型判别 61
2.10 类型转换 62
参考资料 64
第3章 R语言编程 65
3.1 R的特征 66
3.2 流程控制(条件语句与循环语句) 66
3.2.1 if语句 66
3.2.2 循环语句 67
3.3 运算 69
3.3.1 数值运算 70
3.3.2 向量运算 70
3.3.3 NA处理 72
3.4 定义函数 74
3.4.1 基本定义 74
3.4.2 可变长参数 75
3.4.3 嵌套函数 76
3.5 作用域 77
3.6 值传递 80
3.7 对象的不变性 81
3.8 模块模式 83
3.8.1 队列 84
3.8.2 编写队列模块 85
参考资料 86
第4章 数据操作Ⅰ:基于向量的处理与外部数据处理 87
4.1 鸢尾花数据集 88
4.2 读写文件 90
4.2.1 读写CSV文件 90
4.2.2 读写对象文件 93
4.3 合并数据框的行与列 94
4.4 apply系列函数 96
4.4.1 apply 97
4.4.2 lapply函数 99
4.4.3 sapply 102
4.4.4 tapply 104
4.4.5 mapply 106
4.5 数据分组并调用函数 107
4.5.1 summaryBy 108
4.5.2 orderBy 110
4.5.3 sampleBy 112
4.6 数据拆分与合并 114
4.6.1 split 115
4.6.2 subset 116
4.6.3 数据合并 117
4.7 数据排序 119
4.7.1 sort 119
4.7.2 order 120
4.8 访问数据框中的列 121
4.8.1 with 121
4.8.2 within 122
4.8.3 attach与detach 124
4.9 查找符合条件的数据索引 126
4.10 分组运算 127
4.11 更易处理的数据表现形式 128
4.12 与MySQL联动 131
4.12.1 安装MySQL及RMySQL 131
4.12.2 使用RMySQL访问MySQL数据库 140
参考资料 141
第5章 数据操作Ⅱ:数据处理及加工 143
5.1 数据处理及加工相关包 144
5.2 使用SQL处理数据 144
5.3 数据分析:拆分、应用、合并 146
5.3.1 adply函数 147
5.3.2 ddply函数 149
5.3.3 轻松进行按组运算 150
5.3.4 mdply 153
5.4 数据结构变形与汇总 154
5.4.1 melt 155
5.4.2 cast 157
5.4.3 数据汇总 158
5.5 数据表:更快、更方便的数据框 160
5.5.1 创建数据表 160
5.5.2 数据访问与分组运算 162
5.5.3 使用key快速访问数据 164
5.5.4 使用key合并数据表 166
5.5.5 利用引用修改数据 167
5.5.6 将列表转换为数据框 168
5.6 更好的循环语句 170
5.7 并行处理 172
5.7.1 设置进程数 173
5.7.2 plyr并行化 174
5.7.3 foreach并行化 176
5.8 单元测试与调试 177
5.8.1 testthat 177
5.8.2 使用test_that进行测试分组 179
5.8.3 测试文件的结构 180
5.8.4 调试 181
5.9 测定代码执行时间 187
5.9.1 测定命令语句执行时间 187
5.9.2 代码性能测试 189
参考资料 191
第6章 绘图 193
6.1 散点图 194
6.2 图形选项 195
6.2.1 坐标轴名称 196
6.2.2 图形标题 197
6.2.3 点的类型 197
6.2.4 点的大小 198
6.2.5 颜色 199
6.2.6 坐标轴的取值范围 200
6.2.7 图形类型 201
6.2.8 线型 204
6.2.9 图形排列 204
6.2.10 抖动 205
6.3 基本图形 207
6.3.1 点 207
6.3.2 折线 209
6.3.3 直线 211
6.3.4 曲线 212
6.3.5 多边形 213
6.4 字符串 216
6.5 识别图形中的数据 218
6.6 图例 219
6.7 绘制矩阵中的数据(matplot、matlines、matpoints) 220
6.8 应用图形 221
6.8.1 箱线图 222
6.8.2 直方图 225
6.8.3 密度图 227
6.8.4 条形图 229
6.8.5 饼图 230
6.8.6 马赛克图 232
6.8.7 散点图矩阵 234
6.8.8 透视图、等高线图 235
参考资料 238
第7章 统计分析 239
7.1 生成随机数与分布函数 240
7.2 基本统计量 243
7.2.1 样本均值、样本方差、样本标准差 243
7.2.2 五数概括 244
7.2.3 众数 246
7.3 样本抽取 246
7.3.1 简单随机抽样 247
7.3.2 考虑权值的样本抽取 248
7.3.3 分层随机抽样 249
7.3.4 系统抽样 251
7.4 列联表 252
7.4.1 创建列联表 253
7.4.2 求和与百分比 254
7.4.3 独立性检验 256
7.4.4 费舍尔精确检验 261
7.4.5 McNemar检验 262
7.5 拟合优度检验 265
7.5.1 卡方检验 265
7.5.2 夏皮罗-威尔克检验 265
7.5.3 柯尔莫诺夫-斯米尔诺夫检验 266
7.5.4 Q-Q图 268
7.6 相关分析 271
7.6.1 皮尔逊相关系数 272
7.6.2 斯皮尔曼相关系数 275
7.6.3 肯德尔等级相关系数 277
7.6.4 相关系数检验 277
7.7 估计与检验 278
7.7.1 单样本均值 279
7.7.2 两独立样本均值 282
7.7.3 两配对样本均值 285
7.7.4 两样本方差 287
7.7.5 单样本比率 288
7.7.6 两样本比率 290
参考资料 291
第8章 线性回归 293
8.1 线性回归的基本假设 294
8.2 简单线性回归 295
8.2.1 创建模型 295
8.2.2 提取线性回归结果 296
8.2.3 预测与置信区间 298
8.2.4 模型评估 299
8.2.5 方差分析及模型间比较 302
8.2.6 模型诊断图形 304
8.2.7 回归直线的可视化 306
8.3 多元回归 307
8.3.1 创建及评估模型 307
8.3.2 分类变量 308
8.3.3 多元回归模型的可视化 310
8.3.4 使用函数I 312
8.3.5 变量的变换 314
8.3.6 交互作用 314
8.4 异常值 320
8.5 变量选择 321
8.5.1 选择变量的方法 322
8.5.2 比较所有情形 325
参考资料 328
第9章 分类算法Ⅰ:数据探索、预处理、模型评估方法 331
9.1 数据探索 332
9.1.1 技术统计 332
9.1.2 数据可视化 337
9.2 预处理 340
9.2.1 数据变换 340
9.2.2 缺失值处理 345
9.2.3 变量选择 348
9.3 模型评估方法 358
9.3.1 评估指标 358
9.3.2 ROC曲线 361
9.3.3 交叉检验 365
参考资料 375
第10章 分类算法Ⅱ:机器学习算法 377
10.1 逻辑回归模型 378
10.2 多项逻辑回归分析 381
10.3 决策树 384
10.3.1 决策树模型 385
10.3.2 分类与回归树 386
10.3.3 条件推断决策树 389
10.3.4 随机森林 391
10.4 神经网络 396
10.4.1 神经网络模型 396
10.4.2 神经网络模型学习 398
10.5 支持向量机 402
10.5.1 支持向量机模型 403
10.5.2 支持向量机学习 404
10.6 类别不平衡 408
10.6.1 向上取样、向下取样 409
10.6.2 SMOTE 411
10.7 文档分类 413
10.7.1 语料库与文档 413
10.7.2 文档变换 414
10.7.3 文档的矩阵表示 415
10.7.4 高频词 418
10.7.5 词语之间的相关关系 419
10.7.6 文档分类 420
10.7.7 从文件创建语料库 422
10.7.8 元数据 424
10.8 caret包 427
参考资料 431
第11章 利用泰坦尼克数据练习机器学习 433
11.1 泰坦尼克数据格式 434
11.2 读入数据 434
11.2.1 转换数据类型 435
11.2.2 分离测试数据 437
11.2.3 准备交叉检验 438
11.3 数据探索 440
11.4 评估指标 444
11.5 决策树模型 444
11.5.1 rpart的交叉检验 445
11.5.2 准确度评估 446
11.5.3 条件推断决策树 447
11.6 发现其他特征 448
11.6.1 使用ticket识别家庭 448
11.6.2 预测生还概率 449
11.6.3 添加家庭ID 450
11.6.4 合并家庭成员的生还概率 452
11.6.5 使用家庭信息建模ctree 454
11.6.6 性能评估 455
11.7 交叉检验并行化 457
11.7.1 反复执行3次10层交叉检验 457
11.7.2 使用foreach与%dopar%进行并行化 458
11.8 开发更好的算法 459
参考资料 460
|
|