新書推薦:
《
百年词史-(1900-2000(全二册))
》
售價:HK$
333.8
《
RDI人际关系发展疗法:修复孤独症核心障碍,让干预回归生活
》
售價:HK$
99.7
《
金融科技监管的目标、原则和实践:全球视野下加密货币的监管
》
售價:HK$
110.9
《
城市轨道交通绿色低碳规划设计研究——深圳地铁6号线工程创新与实践
》
售價:HK$
221.8
《
艾尔米塔什国家博物馆 少年游学 人一生一定要看的博物馆
》
售價:HK$
38.1
《
世界四大博物馆4册套装 卢浮宫大英大都会艾尔米塔什博物馆 青少年游学艺术参观科普书
》
售價:HK$
152.3
《
艺术家之路 塑造插画风格
》
售價:HK$
166.8
《
古乐钩沉(中国音乐学院60周年校庆中青年学者文集)
》
售價:HK$
132.2
|
內容簡介: |
如何从数据中挖掘价值?一是要锻炼数据思维;二是需要选择一个便利快捷的工具。R语言在数据分析方面有着灵活、高效的优势。本书以R语言为基础,深度讲解从数据思维到实战的全过程。在章节组织上,本从R语言简介及优势入手,再到数据读取、清洗、描述、建模等数据分析的各个环节,由浅入深逐个讲解,是一本实务分析中的“R语言指南”。同时,本书采用大量实际案例辅以说明,既有助于上手分析,也可用于教学使用。
本书所有代码、数据可在狗熊会官网(http:www.xiong99.com.cncreate.php)免费下载。同时,关注狗熊会微信公众号,可获取更多扩展资源。
|
關於作者: |
朱雪宁复旦大学大数据学院助理教授。博士毕业于北京大学光华管理学院商务统计系,后于宾州州立大学(Pennsylvania State University)从事博士后研究工作。狗熊会创始团队成员、《R语千寻》专栏负责人;统计之都核心成员、编辑部主编。研究上关注社交网络数据分析、高维数据分析等问题。
|
目錄:
|
第1章初识R语言
1.1初识R语言
1.2安装R语言
1.3获取R帮助文档
第2章R语言数据操作
2.1R中的数据类型
2.2数据读入
第3章R语言与统计分析
3.1描述分析及可视化
3.2统计检验
3.3回归分析
3.4代码规范与文档撰写
第4章R语言与非结构化数据分析
4.1文本分析
4.2图像分析
第5章R语言与机器学习
5.1机器学习概述
5.2数据预处理
5.3模型训练与调参
5.4模型训练与集成
第6章R语言爬虫初介
6.1HTML基础与R语言解析
6.2XML与XPath表达式以及R爬虫应用
6.3HTTP协议
6.4AJAX与网页动态加载
6.5正则表达式与字符串处理函数
6.6R语言爬虫实战
|
內容試閱:
|
推荐序一
王汉生
编程语言之于数据分析是必不可少的。对于一个数据科学的新兵,应该从哪门语言开始?摆在面前的选择很多:R,SAS,Python,C,JAVA,甚至Fortran。它们各有优势,也有不足。如果一定要选一个,我推荐R。有两个重要原因:第一,R是免费的,全球镜像,非常方便。第二,R的分析建模能力很强,部分得益于基础模块的完善,部分得益于整个统计学社区的支持。很多最新的分析方法、统计模型都是用R首先实现,并被开发封装成为程序包的。当然,这绝不是说R语言是完美的。它显然不完美,还有很多缺陷。但是,这丝毫不妨碍它成为你学习数据分析的第一门语言。正因如此,狗熊会微信公号决定要写一本关于R语言的书,要写一本带有狗熊会强烈DNA印记的R语言入门教材。但是,谁来写?谁来当这个倒霉蛋呢?
这个倒霉蛋不能是我。在狗熊会的团队里,我岁数最大,有耍赖皮的特权,当然不会压榨自己,我更擅长压榨其他小伙伴。那该压榨谁?只能是布丁朱雪宁。在狗熊会的联合创始人团队里,布丁的R编程能力公认是最强的。说来惭愧,我是布丁的博士导师,但布丁的理论功底似乎比我还好,而编程能力更比我高出不知几个量级。有时,我会有点懵圈,似乎没教过布丁什么东西,怎么就当了布丁的老师呢?她是怎么成长得如此优秀的呢?思来想去,或许我的一丢丢贡献在于点燃或者加强了布丁在数据分析中获得快乐。
布丁天生乐观,而且,她把数据分析的快乐完美地带入了R语言编程。单就汉字分词、频数统计,布丁竟然将之跟《张无忌到底爱谁》扯上了关系。这成了狗熊会第一个阅览量过万的推文。我和小伙伴们都惊呆了!说句实话,对此我很困惑。我认真看过这篇推文多遍,实在看不明白布丁在说什么。我对该作品的印象就是语无伦次,逻辑混乱,不知所云,各种差评。但是奇怪,熊粉们怎么就这么喜欢呢?也许是我老了吧。不得不承认,代沟是存在的。但是,我能感受得到,跳跃在R代码和《张无忌到底爱谁》文字之间的、布丁那肆无忌惮的快乐。对,这就是布丁的快乐、布丁之于数据分析的快乐。
还说汉字分词、两样本检验、逻辑回归,布丁将之跟《红楼梦作者之谜》扯上了关系,引得众多读者点评布丁的作品,其中既有普通熊粉,也有备受尊重的资深学者,布丁不敢怠慢,逐条答复。不得不承认,我有一点幸灾乐祸的窃喜。我想布丁的内心一定非常崩溃:我就做了一个好玩
的中文数据分析,纯娱乐项目,你们怎么当真了呢?这就是布丁的快乐、布丁之于数据分析的快乐。布丁是一个优秀的领导者。在她的周围,团结着一帮弟弟妹妹,他们一起构成了布丁小分队或者叫敢死队。据说,布丁对弟弟妹妹们手段凶残,压榨无数。但奇怪的是,弟弟妹妹们却非常喜欢这位学姐,亲切地称她为雪姨,并且坚定不移地跟随雪姨闯荡数据江湖。为什么?我斗胆猜测,原因还是快乐。大家在一起,互相学习,互相督促,一起享受数据分析的快乐,一起享受成长的喜悦。我很喜欢这样一个团队架构。碰到极具艰难的任务,我可以通过压榨布丁,布丁再压榨她的小分队,达到很高的团队执行力效果。这本书的出版就是一个很好的例子。这本书是我强派给布丁的,然后布丁把控整体设计以及很多核心内容,但是,还有很多内容是由其他小伙伴完成的,他们分别是按姓名拼音排序:常象宇政委、成慧敏、范超、李宇轩、鲁伟、潘蕊水
妈、王健桥、王毅然、向韵桦。对此,我一并感谢,并对大家处在狗熊会食物链的底端深表同情。
我是不是跑题了?布丁给我的任务是给本书写序,却谈到了食物链。不,我没有跑题。我想告诉大家的是,这本书的核心不是R语言,是快乐,是数据分析的快乐,是跟布丁学习R语言的快乐。
|
|