新書推薦:
《
人工智能与大数据:采煤机智能制造
》
售價:HK$
96.8
《
新民说·逝去的盛景:宋朝商业文明的兴盛与落幕(上下册)
》
售價:HK$
173.8
《
我从何来:自我的心理学探问
》
售價:HK$
119.9
《
失败:1891—1900 清王朝的变革、战争与排外
》
售價:HK$
85.8
《
万千心理·我的精神分析之道:复杂的俄狄浦斯及其他议题
》
售價:HK$
104.5
《
荷马:伊利亚特(英文)-西方人文经典影印21
》
售價:HK$
107.8
《
我的心理医生是只猫
》
售價:HK$
49.5
《
股权控制战略:如何实现公司控制和有效激励(第2版)
》
售價:HK$
98.8
|
編輯推薦: |
通过对历史数据的分析创建模型,为可靠预测打下基础将战略与管理、方法与模型、信息技术与代码三者完美结合
|
內容簡介: |
本书着眼于真实的案例和真实的数据。每章通过对一个实际问题的描述和讨论引出特定的预测分析模型,分析的结果通过可视化图表进行展示,章节末尾提供了R语言编写的应用程序。通过对建模技术和编程工具的实际演示,把抽象化的概念转化为具体的例子,让这些可以成功运行的案例程序更易于理解。 本书不但适合计算机、统计等相关专业选作教材,还适合进行公司决策分析、大数据分析等的相关人员参考阅读。
|
關於作者: |
陈宇红,在美国从事大数据、商务智能相关领域研究多年,对数据分析、统计等颇有建树。旅美多年,对美国文化有较的理解。 Thomas W. Miller,美国西北大学预测分析项目主任教授、数据科学家,并且兼任佛罗里达州,坦帕市 ToutBay 公司的产品开发总监,ToutBay 是一家数据科学公司。
|
目錄:
|
目录
第1章 分析和数据科学1
第2章 广告和促销11
第3章 偏好与选择25
第4章 购物篮分析33
第5章 经济数据分析44
第6章 运营管理56
第7章 文本分析71
第8章 情绪分析93
第9章 体育分析129
第10章 空间数据分析148
第11章 品牌和定价167
第12章 大数据的小游戏200
附录A 数据科学的方法203
A.1 数据库和数据准备204
A.2 经典统计与贝叶斯统计206
A.3 回归与分类208
A.4 机器学习212
A.5 互联网和社交网络分析213
A.6 推荐系统215
A.7 产品定位216
A.8 市场细分218
A.9 选址219
A.10 金融数据科学220
附录B 测量222
附录C 个案分析232
C.1 回到我们的“摇头娃娃”个案232
C.2 DriveTime 公司的轿车销售233
C.3 钻石价更高237
C.4 威斯康星Dells 度假中心240
C.5 个人电脑选择研究244
附录D 代码和实用程序248
|
內容試閱:
|
译者序
大数据与商务智能
大数据(Big Data)是 2012 年开始炒作起来的一个新词汇。记得当时我有个在硅谷从事 IT 投资工作的朋友到纽约参加投资商会,她说,上一年度的会议,所有的话题都是社交网络(彼时 Facebook 如日中天),现在呢,人人说的都是大数据。
任何行业大致都差不多,隔上一段时间,总会有个新东西出来炒作一下,无论是911 后的容灾系统、dot com,还是社交网络、大数据,到今天的云。这也是社会进步的一种方式吧。
在大数据这个概念出来之后,我曾经不止一次被问到大数据的问题。比方之前有一次被问到大数据的问题时,一开始我完全不知道对方问的是什么,几个回合下来,才了解到对方的问题完全是商务智能 Business Intelligence方面的; 还有一次和一些从业IT 技术十几二十年的同行聊天,有人说,大数据把人忽悠得云里雾里,弄不清楚到底是什么东西。于是,许多人就很简单地把所有数据相关的东西,统统都说成是大数据,因此,商务智能也是大数据。
我们知道,传统的数据,多是指结构化的数据,如早期的dBase、FoxPro,到现在普遍使用的关系型数据库 SQL Server、Oracle或者DB2,存储的都是结构化的数据。这些数据都可以用两维的行和列的表格形式表现出来。随着互联网技术的飞速发展,出现了很多非结构化的数据,比如音像数码文件、博客文章、网站搜索索引、社交网络的留言,对这些数据的收集和使用,是我所认知的大数据技术。人们对大数据有各种各样的定义,其中有一个定义是大数据是不能用传统的数据库工具管理的所有数据 big data is any data that cant be managed using conventional database tools。我颇以为然。在当前的自然数据中,结构化的数据还不足两成,绝大部分的数据,都是非结构化的数据。
商务智能(Business Intelligence,BI)和商务分析(Business Analytics)却不是一个新兴的概念。根据相关资料的记述,商务智能这个词汇早在 1988 年就出现了,到了20世纪90年代,关系型数据开始被广泛使用后,SQL查询语言报表成为了常规,这便是最早的商务智能实例。商务智能在过去的这些年里发展迅速,如我们后来熟知的数据仓库(data warehouse)、数据集市(data mart)、建造数据仓库的抽取-转换-加载(ETL)技术、在线分析处理(OLTP)、数据可视化(data visualization)、信息中心化(dashboard)等,都可看作是商务智能的组成部分。
收集到了数据后,需要进行商务分析,回答商务问题,进行数据驱动的商务决策。按照商务问题的种类,数据分析划分为三种类型:第一种是描述分析(descriptive analytics),从历史数据中,总结过去的商务行为都发生了什么事情,是什么时候、什么原因,怎样发生的;第二种是预测分析(predictive analytics),是通过数据分析预测将来的商务行为中可能会发生什么样的事情;最后一种是规范分析(prescriptive analytics),是基于描述分析和预测分析的结果来推荐的未来的商务行为。有些数据科学家还提出,在描述分析和预测分析中间,应该加入一种新的分析类型诊断分析(diagnostic analytics),通过对历史数据的分析创建模型,为预测分析打下基础。
对原始数据进行上述各种分析的过程,就是我们熟知的数据挖掘(data mining)。习惯上,我们把数据挖掘的过程分为四大类:分类(classes),类聚(clusters),关联(associations),序列模式 (sequential patterns)。在本书中,与这四种过程相关的技术,会使用经典统计(classical statistics)、贝叶斯方法(Bayesian Statistics)、回归(regression)、分类(classification)、机器学习(machine leaning),等等。
那么大数据和商务智能之间是否有关联呢?美国的一些数据科学家是这样说的,商务智能是帮你找到你想要知道的问题的答案,大数据是帮你发现那些你不知道要问的问题。这个答案也是蛮可爱的。商务智能分析的数据是结构化数据,大数据技术则需要分析所有的结构化,连同非结构化的数据。商务智能和大数据对数据的存储方式和对数据的分析手段的要求是不同的。但无论大数据也好,商务智能也好,数据存在的目的就是让我们通过分析,得到尽可能好的分析且结果为相关的商务服务。从这点上看,大数据和商务智能都有一个共同的目标,这大概就是大数据和商务智能常常被合二为一的原因吧。现在,有诸多数据专家致力于开发商务智能应用于大数据的数据分析技术,希望这一技术能早日成熟。
有人问过我,如果没有任何统计学基础,数学的根底也很有限,可以学习商务分析吗?诚如本书的作者米勒教授在前言中所说,在这本书里可以了解到,数据分析可以在哪些不同商务领域中解决什么样的问题。认识到哪些问题可以从现有的数据中找到答案,是利用商务智能的起点。如果你从事数据分析工作,或者是程序员,则可以通过本书的案例,认知到如何一步一步地分析问题、解决问题、找出问题的答案所在。
本书的所有案例都是在R语言环境下实现的。R语言最初是为生物统计开发的一个开源软件。记得多年之前,我在纽约大学上生物统计的课程时,第一次接触到R语言。当时我们的教授是这样描述R语言的:R环境不依赖计算机操作系统,你可以在UNIX、Linux、Windows 或者 Macintosh 甚至OS X 系统下使用;R语言很容易学习,即使没有任何编程基础的人,也可以掌握;在R环境下可以很轻松地进行数据分析,并绘制出可供图书出版级别的数据可视化图表。因为R语言的这些优势,R的用户不断开发出各种增强功能的软件包,现在R语言已经被广泛用于经济计量、财经分析和商务智能等各个领域。
本书的作者米勒先生是美国西北大学的教授,他酷爱运动和电影。书中的案例包含了非常多的美国文化。例如在每个章节的开头,都以一段美国电影对白开始,如果了解这些电影,或者了解这段对白出现的场景,便会知道这段对白跟这个章节所讲述的内容之间的契合。在文本分析和情绪分析的章节,原始的数据都是非结构化的文本数据,需要先格式化处理,并使用语料库的技术进行分析,因为英文这种语言的特性,会让我们的读者很难理解将文本数据格式化所采用的方式。
非常感谢炼数成金dataguru.cn社区的创始人黄志洪先生,在我翻译本书的过程中给予我诸多的建议和帮助。感谢炼数成金社区的何翠仪小姐、张晓仪小姐和吴仕灿先生的校阅。非常感谢我的家人,支持我在过去的这段日子仅因我个人的兴趣而花费的大量时间。感谢我的父母从小对我严谨的治学态度的培养,他们一向是我进步的榜样。也感谢我身边一直鼓励我的所有朋友。
作为这本书的译者,我尽力对书中的一些美国文化的背景做了一些注释。能使读者们最大程度地从这本译著中获益,是我的初衷。
陈宇红
2016年1月于纽约
前言
托托,我觉得我们已经不在堪萨斯城了哦。
陶乐思?高尔(茱蒂?格兰特饰演),美国电影《绿野仙踪》(The Wizard of Oz 1939)
数据和算法统治了当下。欢迎您来到这个崭新的商务世界,一个必须通过强大的分析能力和信息的交流,才能取得稍纵即逝的竞争优势的、快节奏的、数据密集的开源环境。
现有的许多论述预测分析或数据科学的书籍,谈论的是战略和管理;还有一部分着眼于方法和模型;其余的着重于信息技术和代码。本书少有的试图将上述三者结合起来,深受建模人员、程序员和商务经理的喜爱。
我们已经意识到了通过分析的手段来获得竞争优势的重要性。我们为研究人员和分析师提供一个现成的资源和建模技术参考指南;我们为程序员展示如何编写解决实际商务问题的基本代码;我们将模型运行的结果转化成管理人员可以理解的文字和图片;我们解释数据和模型的含义。
随着数据采集和储存数量的快速增长,随着各种可用于分析的数据的增长,随着每日数据的更新频率及需要分析的数据的增长,相较往日,数据分析变得至为重要。要获取竞争优势,就意味着必须实施新的信息管理和分析系统。这也同样意味着要改变经营的方式。
数据科学这个领域拥有巨大的文献资料,来自于诸多的学科和应用程序。相关的开源代码也在迅速增长。事实上,这是对我们撰写一本全面的预测分析和数据科学指南书籍的挑战。
我们着眼于真实的案例和真实的数据。我们提供一系列范例:在本书中的每一章,将针对一个特定的商务问题作出分析并附上应用程序。我们提供有意义的解决方案。通过对建模技术和编程工具的实际演示,把抽象化的概念转化为具体的例子,让完全可以成功运行的案例程序易于理解。
我们的目标是对预测分析和数据科学做一个概述,让大多数的读者能够读懂。本书没有很多数学理论,统计人员和建模人员可以从参考文献获取详细的推导方法。我们这里仅仅使用简单的文字和可视化的数据来显示商务问题的解决方案。
看过了这本书的主题之后,可能会有人想知道我到底是经典统计的拥护者还是贝叶斯阵营的。在美国明尼苏达大学统计学院时,我创立一个对经典统计及贝叶斯理论都予以尊重的观点。无论是采用经验贝叶斯方法,还是从经典统计学习的方法入手,都会存在一个结合机器学习和经典统计学的领域,这个观点我深以为然。当涉及建模和推理这样的问题时,我是一个实用主义者。我希望大家能够理解我所做的工作,以及我所表达的不确定性。
在世界各地成千上万的专家的帮助下,让我们能够出版这本书。他们对开源环境贡献了时间和想法。开源环境的增长及易于发展的特点,确保了已开发出的解决方案将会成为未来许多年的中心所在。阿拉丁神灯里面的精灵已经跳出油灯获得自由,在帷幕的
|
|