新書推薦:
《
时刻人文·臆造南洋:马来半岛的神鬼人兽
》
售價:HK$
65.0
《
心智、现代性与疯癫:文化对人类经验的影响
》
售價:HK$
188.2
《
周秦之变的社会政治起源:从天子诸侯制国家到君主官僚制国家(历史政治学与中国政治学自主知识体系论丛)
》
售價:HK$
188.2
《
时刻人文·信用的承诺与风险:一个被遗忘的犹太金融传说与欧洲商业社会的形成
》
售價:HK$
103.0
《
同与不同:50个中国孤独症孩子的故事
》
售價:HK$
66.1
《
开宝九年
》
售價:HK$
54.9
《
摄影构图法则:让画面从无序到有序
》
售價:HK$
110.9
《
论僭政:色诺芬《希耶罗》义疏(含施特劳斯与科耶夫通信集)
》
售價:HK$
109.8
|
編輯推薦: |
(1)作者背景资深:作者是泰迪科技董事长,在大数据、数据挖掘、数据科学、人工智能领域有20余年数据挖掘教学、科研和项目实战经验。(2)以实战为导向:不似传统入门书“理论+实践”的风格,而是用11个综合案例为驱动,将数据挖掘的技术、流程、方法融入实战案例中。(3)源于经典赛事:本书11个案例精选自数据挖掘领域知名赛事“泰迪杯”,该赛事已举办10届,1500余所高校的10余万师生参赛。(4)配套资源丰富:本书提供建模平台、视频讲解、习题及答案、作者答疑、数据文件、程序代码、教学课件、模型服务、教学平台、就业推荐等10项超值服务。
|
內容簡介: |
内容简介这是一本以项目实战案例为驱动的数据挖掘著作,它能帮助完全没有Python编程基础和数据挖掘基础的读者快速掌握Python数据挖掘的技术、流程与方法。在写作方式上,本书与传统的“理论与实践结合”的入门书不同,它以数据挖掘领域的知名赛事“泰迪杯”数据挖掘挑战赛(已举办10届)和“泰迪杯”数据分析技能赛(已举办5届)(累计1500余所高校的10余万师生参赛)为依托,精选了11个经典赛题,将Python编程知识、数据挖掘知识和行业知识三者融合,让读者在实践中快速掌握电商、教育、交通、传媒、电力、旅游、制造等7大行业的数据挖掘方法。本书不仅适用于零基础的读者自学,还适用于教师教学,为了帮助读者更加高效地掌握本书的内容,本书提供了以下10项附加价值:(1)建模平台:提供一站式大数据挖掘建模平台,免配置,包含大量案例工程,边练边学,告别纸上谈兵(2)视频讲解:提供不少于600分钟Python编程和数据挖掘相关教学视频,边看边学,快速收获经验值(3)精选习题:精心挑选不少于60道数据挖掘练习题,并提供详细解答,边学边练,检查知识盲区(4)作者答疑:学习过程中有任何问题,通过“树洞”小程序,纸书拍照,一键发给作者,边问边学,事半功倍(5)数据文件:提供各个案例配套的数据文件,与工程实践结合,开箱即用,增强实操性(6)程序代码:提供书中代码的电子文件及相关工具的安装包,代码导入平台即可运行,学习效果立竿见影(7)教学课件:提供配套的PPT课件,使用本书作为教材的老师可以申请,节省备课时间(8)模型服务:提供不少于10个数据挖掘模型,模型提供完整的案例实现过程,助力提升数据挖掘实践能力(9)教学平台:泰迪科技为本书提供的附加资源提供一站式数据化教学平台,附有详细操作指南,边看边学边练,节省时间(10)就业推荐:提供大量就业推荐机会,与1500+企业合作,包含华为、京东、美的等知名企业通过学习本书,读者可以理解数据挖掘的原理,迅速掌握大数据技术的相关操作,为后续数据分析、数据挖掘、深度学习的实践及竞赛打下良好的技术基础。
|
目錄:
|
Contents?目 录
前 言
第一篇 基础篇
第1章 数据挖掘概述 2
1.1 数据挖掘简介 2
1.2 数据挖掘的通用流程 4
1.2.1 目标分析 4
1.2.2 数据抽取 4
1.2.3 数据探索 5
1.2.4 数据预处理 5
1.2.5 分析与建模 5
1.2.6 模型评价 6
1.3 常用数据挖掘工具 6
1.4 Python数据挖掘环境配置 7
1.5 小结 9
第2章 Python数据挖掘编程基础 10
2.1 Python使用入门 10
2.1.1 基本命令 10
2.1.2 判断与循环 14
2.1.3 函数 15
2.1.4 库的导入与添加 17
2.2 Python数据分析及预处理
常用库 19
2.2.1 NumPy 19
2.2.2 pandas 20
2.2.3 Matplotlib 20
2.3 Python数据挖掘建模常用框架
和库 20
2.3.1 scikit-learn 21
2.3.2 深度学习 21
2.3.3 其他 23
2.4 小结 25
第二篇 入门篇
第3章 电商平台手机销售数据采集与
分析 28
3.1 背景与目标 28
3.1.1 背景 29
3.1.2 数据说明 29
3.1.3 目标分析 30
3.2 数据采集 31
3.2.1 手机销售数据采集 31
3.2.2 手机售后数据采集 32
3.3 数据探索与预处理 34
3.3.1 数据信息探索 34
3.3.2 缺失值处理 36
3.3.3 文本处理 37
3.4 数据可视化分析 38
3.4.1 手机的销售因素分析 38
3.4.2 用户的消费习惯分析 45
3.4.3 用户的售后评论分析 49
3.5 制定营销策略 50
3.6 小结 51
第4章 自动售货机销售数据分析与
应用 52
4.1 背景与目标 52
4.1.1 背景 52
4.1.2 数据说明 53
4.1.3 目标分析 53
4.2 数据读取与预处理 54
4.2.1 数据读取 54
4.2.2 数据清洗 55
4.2.3 数据规约 57
4.3 销售数据可视化分析 59
4.3.1 销售额和自动售货机数量的
关系 59
4.3.2 订单数量和自动售货机数量的
关系 60
4.3.3 畅销和滞销商品 63
4.3.4 自动售货机的销售情况 64
4.3.5 订单支付方式占比 67
4.3.6 各消费时段的订单用户
占比 68
4.4 销售额预测 69
4.4.1 统计周销售额 69
4.4.2 平稳性检验 70
4.4.3 差分处理 72
4.4.4 模型定阶 74
4.4.5 模型预测 74
4.5 小结 75
第5章 教育平台的线上课程推荐
策略 76
5.1 背景与目标 76
5.1.1 背景 77
5.1.2 数据说明 77
5.1.3 目标分析 78
5.2 数据探索 78
5.2.1 数据质量分析 79
5.2.2 课程单价分布分析 81
5.3 数据预处理 82
5.4 平台的运营状况分析 83
5.4.1 用户留存率 83
5.4.2 用户活跃时间 88
5.4.3 课程受欢迎程度 90
5.5 Apriori模型的构建 92
5.5.1 Apriori算法 93
5.5.2 构建Apriori模型 94
5.5.3 模型应用 97
5.6 制定课程推荐策略 98
5.7 小结 99
第三篇 进阶篇
第6章 电视产品的营销推荐 102
6.1 背景与目标 102
6.1.1 背景 103
6.1.2 数据说明 103
6.1.3 目标分析 104
6.2 数据预处理 105
6.2.1 数据清洗 105
6.2.2 数据探索 109
6.2.3 属性构建 115
6.3 分析与建模 118
6.3.1 基于物品的协同过滤推荐
模型 119
6.3.2 基于流行度的推荐算法
模型 121
6.4 模型评价 122
6.5 小结 124
第7章 运输车辆安全驾驶行为
分析 125
7.1 背景与目标 125
7.1.1 背景 126
7.1.2 数据说明 126
7.1.3 目标分析 126
7.2 构建车辆驾驶行为指标 127
7.3 数据探索分析 129
7.3.1 分布分析 129
7.3.2 相关性分析 131
7.3.3 异常值检测 132
7.4 驾驶行为聚类分析 133
7.4.1 K-Means聚类 133
7.4.2 层次聚类 135
7.4.3 高斯混合模型聚类 136
7.4.4 谱聚类 137
7.5 构建驾驶行为预测模型 139
7.5.1 构建LDA模型 139
7.5.2 构建朴素贝叶斯模型 140
7.5.3 构建神经网络模型 142
7.6 驾驶行为安全分析总结 143
7.7 小结 143
第8章 基于非侵入式负荷监测与
分解的电力数据挖掘 144
8.1 背景与目标 144
8.1.1 背景 144
8.1.2 数据说明 146
8.1.3 目标分析 148
8.2
|
內容試閱:
|
前 言
为什么要写这本书
大数据竞赛是企业和数据人才之间一座新的桥梁,将数据、技术、人才和各领域应用有机融合,进而促进技术创新、人才价值提升、数字经济与各领域发展。“泰迪杯”数据分析技能赛和“泰迪杯”数据挖掘挑战赛(统称“泰迪杯”竞赛)面向全国高等院校在校生及相关爱好者,是基于数据挖掘技术解决各行业的实际问题的群众性科技活动。“泰迪杯”竞赛迄今已成功举办15届,累计参赛高校1500余所,累计参赛人数近10万。举办“泰迪杯”竞赛的目的在于:以赛促学,提高学生学习数据挖掘的积极性及解决实际相关问题的综合能力;以赛促教,推动数据挖掘技术在高校的推广和应用;以赛促研,为高校相关智力资源转化为推进国家大数据战略的生产力提供合作平台。
本书基于“泰迪杯”竞赛中的经典赛题,由浅入深地讲解数据挖掘方法,带领读者了解各个领域的业务知识,进而将数据挖掘、Python语言技术和行业知识三者有机融入,最大化提升读者对数据挖掘的理解和实践能力。
本书特色
本书从实践出发,结合“泰迪杯”竞赛官方推出的赛题,按照赛题的难易程度进行排序,由浅入深地介绍数据挖掘技术在商务、教育、交通、传媒、电力、旅游、制造业等行业的应用。因此,图书的编排以解决某个应用的挖掘目标为前提,紧密地贴合实际业务场景和需求;每一个实战案例的讲解都是从案例的背景和目标入手,从了解案例需求到一步步拆解任务,最终解决业务问题,让读者获得真实的数据挖掘学习与实践环境,更快、更好地掌握数据挖掘知识,积累经验。为方便读者轻松地获取一个真实的实验环境,本书使用大家熟知的Python语言对样本数据进行处理和挖掘建模。
本书提供配套原始数据文件、Python程序代码等资源,读者可以从泰迪云教材网站(https://book.tipdm.org/)免费下载。
本书适用对象
对数据分析、数据挖掘、深度学习的实践及竞赛感兴趣的人员。
开设数据挖掘课程的高校的教师和学生。
数据挖掘开发人员。
进行数据挖掘应用研究的科研人员。
关注高级数据分析的人员。
如何阅读本书
本书共14章,分五篇:基础篇、入门篇、进阶篇、高阶篇和拓展篇。基础篇介绍了数据挖掘的基本原理,以及使用Python进行数据挖掘所需的编程基础。入门篇、进阶篇、高阶篇介绍了几个真实案例,通过对案例进行深入浅出的剖析,使读者在不知不觉中获得数据挖掘项目经验,同时快速领悟看似难懂的数据挖掘理论。拓展篇介绍了一个开源数据挖掘建模平台,通过平台去编程、拖曳式操作,向读者展示平台流程化等特点,使读者加深对数据挖掘流程的理解。
基础篇(第1、2章):第1章的主要内容是数据挖掘概述,第2章对数据挖掘建模所需的 Python语言基础知识进行了简明扼要的说明。
入门篇(第3~5章):选取“泰迪杯”数据分析技能赛的3道赛题,运用简单的数据分析技术剖析数据信息,挖掘业务现象,解决业务问题。
进阶篇(第6~9章):选取“泰迪杯”数据挖掘挑战赛的4道赛题,运用数据挖掘技术构建相关的分析模型,更理性、快捷地进行预测和分析。
高阶篇(第10~13章):选取“泰迪杯”数据挖掘挑战赛的4道赛题,运用深度学习技术训练网络和构建模型,实现智能化、自动化的事物识别与检测。
拓展篇(第14章):重点讲解了TipDM大数据挖掘建模平台的使用方法,先介绍了平台每个模块的功能,再以自动售货机销售数据分析为例,介绍如何使用平台快速搭建数据分析与挖掘工程,展示平台去编程、平台流程化的特点。
勘误和支持
我们已经尽最大努力避免在文本和代码中出现错误,但是由于水平有限,编写时间仓促,书中难免存在一些疏漏和不足的地方。如果你有更多的宝贵意见,欢迎在泰迪学社微信公众号(TipDataMining)上回复“图书反馈”进行反馈。本系列图书的更多信息可以在泰迪云教材网站(https://book.tipdm.org/)上查阅。
致谢
在图书编写过程中,我们得到了相关企事业单位多位专家的大力支持!在此谨向天津大学边馥萍、复旦大学蔡志杰、北京大学邓明华、中国科学院方海涛、中山大学冯国灿、信息工程大学韩中庚、汕头大学郝志峰、中山大学任传贤、佛山科技学院戎海武、中山大学王其如、汕头大学韦才敏、国防科技大学吴孟达、韩山师范学院肖刚、北京工业大学薛毅、华南师范大学薛云、重庆大学杨虎、华南师范大学杨坦、广东泰迪智能科技股份有限公司张尚佳、广州海数华据科技发展有限公司郑海兵等专家(按专家姓名拼音字母排列)致以深深的谢意。
张良均
2023年3月于广州
|
|