新書推薦:
《
技术统治(未来哲学系列)
》
售價:HK$
53.8
《
中考热点作家孙道荣2024年散文精选集三册
》
售價:HK$
127.7
《
全球城市案例研究2023:基于网络的合作与竞争国际经验借鉴
》
售價:HK$
199.4
《
引爆:炸药、硝酸盐和现代世界的形成
》
售價:HK$
85.1
《
人类星球:我们如何创造了人类世(企鹅·鹈鹕丛书013)
》
售價:HK$
91.8
《
伏候圣裁:中国古代的君主与政治
》
售價:HK$
98.6
《
艺术图像学研究(第一辑)
》
售價:HK$
188.2
《
摆脱强迫的人生(修订版)
》
售價:HK$
88.5
|
編輯推薦: |
2015年度十大科技创新人物、百万级畅销书《大数据时代》中文版译者、中国大数据领军人周涛耗时三年首部个人专著横空出世!
领跑大数据3.0时代,大数据创新实践的扛鼎之作!
没有晦涩的文辞,枯燥的说教,字里行间洋溢着浓浓的数据情怀与拳拳的责任之心。睿智潇洒的文风背后是对大数据的一腔朴素浓厚的感情。
这是一部大数据在智慧城市、医疗、教育、金融、商业等领域的实践笔记;更是一部为未来大数据的发展提供有可行性的路径指南!
宽带资本董事长田溯宁、阿里巴巴集团执行副总裁曾鸣、香港科技大学教授杨强重磅推荐!
湛庐文化出品。
|
內容簡介: |
在大数据概念如此流行的今天,为什么要读这本书?中国大数据领军人、大数据创新与实践一线专家、百万级畅销书《大数据时代》中文版译者周涛,耗时三年,将海量真实案例披沙拣金呈现给广大读者。在本书中,您将看到大数据在智慧交通系统、个性化医疗、智慧学校以及金融和商业等领域的中国式创新实践,并为未来大数据的发展提供有可行性的路径指南。
什么样的人才能在下一个时代生存和发展?大数据3.0时代我们究竟要做些什么?数据交易如何让数据资源成为汇聚之地?每个企业又该如何成为大数据企业?周涛教授通过真实案例告诉读者:拥有大数据的理念,能够掌握数据和运用数据的人和企业,才能在一切都被记录,一切都被分析的数据化时代得以生存。无论现在从事什么行业,即便不能掌握一项特定的数据技术,了解大数据的理念、培养大数据的思维模式是非常重要的。学会用数据说话,用数据分析的结果来证明哪个更好,哪个更坏并指导我们作出正确决策。
这不是坚硬的学术专著,而是一部柔软的情怀之书!没有晦涩的文辞,枯燥的说教,字里行间洋溢着浓浓的数据情怀和拳拳的责任之心。周涛教授讲述了很多在大数据领域努力拼搏,希望有所创新的中国人的故事,相信这些故事背后的理念、技术和精神能够唤起更多年轻的创新者,为我们民族的复兴作出自己的贡献。
领跑大数据3.0时代,大数据创新实践的扛鼎之作!大数据1.0,是将自身业务上产生的大量数据,利用深入的分析使其不断优化,优化之后的业务产生更多数据的正向循环。大数据2.0,是如何把自身业务的数据用来解决业务以外的其它问题,或者如何用业务以外的数据解决自身业务的问题。大数据3.0,是如何在资本和文化的催化作用下,让数据、技术、需求和人才等大数据创新要素融为一体。三个版本强调的不是时间上的先后顺序或逻辑上的依存关系,而是就其与传统数据应用在理念上的差异程度进行的划分。
|
關於作者: |
周涛
天才神童。1岁说话,1岁半识字,2岁学象棋,3岁打麻将,4岁看武侠小说26岁获得教育部自然科学一等奖,27岁获聘电子科技大学正教授,29岁获得中国青年科技奖。
学术达人。在《物理报道》Physics Reports、《美国科学院院刊》(PNAS)、《自然通讯》(Nature Communication等国际SCI期刊和SIGKDD、ICDM等国际学术会议发表论文300余篇,引用13000余次,H指数为55。入选Elsevier全球最具影响力中国学者名单(物理天文类)。
数据少帅。电子科技大学大数据研究中心主任,百万畅销书《大数据时代》中文译者,全国最大的数据挖掘竞赛平台Data Castle的创始人,2015年度十大科技创新人物获得者。
商业玩家。白手起家,先后创立了数之联、数联铭品、国信优易等知名大数据企业,创立和投资的大数据企业总市值过百亿。
|
目錄:
|
自序:在麻瓜和魔法师之间做出选择
Part.1 大数据时代,用数据说话
01 从万物皆数到万事皆数 005
主动或被动,我们都是数据贡献者
一切都被记录,一切都被分析
四大方面,让数据指数级增长
02 从十数九表到数态万千 017
结构化数据
非结构化数据
03 从隔水相望到阡陌交通 029
地点数据
个人数据
数据与数据,1 1远大于2
大数据创新实践:
用购买记录给用户画像
04 大数据和云计算驱动新工业革命 039
计算:第三次工业革命中的新能源
数据:第三次工业革命中的新材料
证析:第三次工业革命中的先进工艺技术
个性化:大数据时代最显著的商业特征
大数据创新实践:
一张失败的公交卡
个性化医疗,安吉丽娜朱莉和史蒂夫乔布斯
Part.2 大数据1.0:分析
05 统计呈现洞见 055
抓出非法的MCC套用
打击电老鼠
抓获过度医疗和骗保行为
识别社交网络中的垃圾用户
新浪微博面临的三大问题
快递员的通话记录蕴藏哪些商机
付费节目点播最多的是什么
06 关联蕴含价值 075
关联规则挖掘
协同过滤
关联分析是寻找因果关系的利器
大数据创新实践:
谁最关注超声波洁面产品
发现一月三电号僵尸用户
07 预测指导决策 089
点击购买类预测
基于移动轨迹的位置预测
链路预测
大数据预测的主流方法是什么
大数据创新实践:
一张信用卡逾期不还款的概率有多大
签到记录预测用户的土著化指数
Part.3 大数据2.0:外化
08 寻求外部数据的帮助 109
从行为数据预测学生考试成绩
从食堂打卡记录中定位孤独人群
从社会计量标牌洞察人力资源管理
预测离职率和升职率
行为数据让非法集资无所遁行
09 自身数据的外部价值 129
45个关键词实时预测流感趋势
阿里巴巴的淘CPI指数
10 机器学习,数据外化最神奇的利器 139
机器学习三板斧1:特征
机器学习三板斧2:模型
机器学习三板斧3:融合
Part.4 大数据3.0:集成
11 交易市场:数据资源的汇聚地 155
科研数据共享
政府数据开放
全国可流通数据的目录体系
12 数据城堡:数据人才的竞技场 175
Kaggle,数据科学之家
数据城堡,Kaggle模式的中国尝试者
13 创新工厂:数据技术的嘉年华 185
大数据创业公司困境
大型传统企业信息化的难题
构建大数据挖掘平台
建设大数据创新工厂
结束语 成为大数据企业 201
致谢 211
|
內容試閱:
|
[结束语]
成为大数据企业
什么样的企业可以称得上是大数据企业呢?恐怕没有人能够给出一个完美的答案。但是,直观地,我们可能觉得Google 更像是一个大数据的企业,阿里巴巴也像是一个大数据的企业,而中国银行似乎不太像一个大数据的企业,尽管它每天也一样浸泡在海量的数据中。除了具有处理大量数据的能力外,之所以Google 和阿里巴巴更像大数据的企业,是因为他们有深入的数据分析工具,利用数据分析的结果直接指导决策,而且经常推出基于数据分析的创新型应用,这还不包括类似于AlphaGo 这样的奇葩。
这是我第三次以文字的形式谈论如何成为一个大数据企业。一是很早以前在科学网上写的一篇博客,二是为一本名为Code Halos 的书写的序言。这个版本可以看作是上两个版本的补充和扩充,同时也是本书一些重点内容的重述(为了保证本文的独立性,可以不依赖本书直接阅读,少量书中给出过的文献和注释在本文中重复出现了)。然而遗憾的是,并没有一条放之四海皆准的通往大数据企业的康庄大道,更没有点石成金之术可以让一个企业快速Google化。这篇结束语只是提出一些看得见摸得着的建议,藏在这些建议背后的大数据理念,或许更加重要。
尽管我是用Step1、Step2 这样的说法来列举成为大数据企业的措施,但是这些步骤之间并没有严格的逻辑上谁决定谁或者时间上谁先谁后的关系。举个例子来说,最好的办法当然是先有了数据标准再整理采集数据,这样可以不走任何弯路,但实际上完全没有数据,企业不会有动力做标准建设,做出来的标准也可能是纸上谈兵,完全不实用。又比如,数据管理平台的建设能够帮助更好地进行全面数据化,但实际上它多半是全面数据化战略进行了一定程度之后才开始启动建设的。总体来说,写在更前面位置的,是更基础的,但是没有绝对的依赖关系。
Step 1. 全面数据化
数据化浪潮是整个大数据时代的起点,它强调数据就是资产,记录一切可以记录的数据,并相信这些数据一定会在某一天产生巨大的价值。显然,数据化是一个企业能够通过深入数据分析,实现自身优化的基础。
我去长虹集团调研的时候,他们告诉我,长虹电器在自己的生产线上,通过大量传感器,记录生产环境的温度、湿度、粉尘度、振动强度和噪音强度,等等,通过这些量化指标与产品质量的关联分析,得到影响产品优品率和良品率的关键因素,再进一步通过控制环境因素,明显提高了产品的优品率。企业在日常的经营管理过程中,通过办公自动化系统(OA系统),很多内部即时通讯、邮件往来、工作分配和业务文件上传下载等日志数据都被记录下来了。这些数据就是宝贵的财富!正如我在书中第三部分提到的,我们通过对这些数据的分析,能够更精确地预测员工的离职率和升职率,更精确地预测员工和部门的绩效水平,帮助企业员工通过基于关联用户和文本智能匹配快速找到对自己现有业务和客户有参考价值的案例和文件,等等。但是这些提升,都是建立在企业拥有相应数据的基础上。
总的来说,全面数据化要求企业采集并存储企业生产经营中的一切数据,形成企业数据资产的概念。
Step 2. 整理数据资源,建立数据标准,形成管理规范
很多企业已经有了一些数据储备,或者通过第一步,开始快速积累了一些数据。但是企业管理层,尤其是跨业态拥有多家子公司的集团运营的企业,一般而言,对于自己到底有哪些数据资源是没有清晰认识的,更拿不出一张较完备的数据目录。
企业要做的第一步,就是通过自顶向下的方式,成立数据委员会,在有必要的时候借助外部合作方的帮助,进行全面的数据调研,了解数据资源的整体情况并建立数据资源情况更新的流程和规范。
数据资源最基本的呈现方式是一个数据目录,我认为,企业管理团队至少要掌握整个企业数据的3级目录,而企业的主要技术团队应该掌握到4级目录。但数据资源又不仅仅是数据目录,因为还涉及到每一个数据项的完备性、更新程度、有效性和噪音源等描述。掌握了数据资源后,企业要根据自己业务发展的需求,建立数据标准,使现有数据和未来所有的新增数据都能够在同一个标准下统一管理,避免信息系统建设越多,未来数据整合越难的困境。业务中涉及大量数据的企业,尤其是涉及到用户隐私数据、国家安全数据和具有重要商业价值数据的企业,要形成数据全流程管理的规范,因为绝大部分数据隐私和数据安全的事件,都不是从外部由黑客或者敌方特定人员通过技术手段获得的,而是本单位人员蓄意或无意泄露的。数据全流程管理的规范就是要做到企业能够对数据进行分级分权限的管理,随时了解敏感数据存储在哪些服务器和终端设备上,对于敏感数据的任何处理,都能够留下数据日志并打上唯一的数据水印,使任何可能的数据泄露之后,都能够追根溯源知道是哪一位员工在什么时间点在哪一台设备上运用何种权限下载的。对于一些操作过程中出现的风险点,良好的管理规范也能够实时发现,防患于未然。
Step 3. 建设数据管理平台
有的读者一听到数据管理平台,就认为是要花一大笔钱建设数据中心,把数据存起来。数据管理平台肯定要有数据中心的存储灾备功能,但是它的作用远不止此。
首先,数据管理平台要为企业量身定做一套数据组织和管理的解决方案,特别是企业各部门之间数据的共融共通,以及企业数据怎么样进行索引和关联。很多大企业,各部门之间数据的格式、形态和ID系统都不一致,部门之间无法交换数据,甚至大部分的数据表连主键和外键都没有,数据之间不可能形成有效的组织。这些都是数据管理平台要做的事情。
其次,数据管理平台是由业务所引导的,先进的流数据智能处理系统,要为业务提供直接的支撑。很多时候,数据管理平台怎么搭建,需要深度了解企业最重要的核心业务,通过有重大价值的示范性应用来牵引数据管理平台的建设。例如针对零售类的企业,就应该形成以消费者为中心的索引和画像系统,主要支持精准广告、智能客服等核心业务,其次才是以商品为中心的索引系统,主要支持物流和仓储优化等业务。
最后,数据管理平台的建设要量体裁衣,强调鲁棒性和可扩展性,没有必要一开始就投入大量经费。因为硬件成本的下降也很快,不用想太多半年甚至一年以后的事情,只要架构设计合理,到需要的时候扩充硬件是容易的。
Step 4. 建立海量数据的深入分析能力
要想建立针对多元异构、跨域关联的海量数据,通过深度分析挖掘获取价值的能力,主要要培养两个方面的能力。
第一,非结构化数据的分析处理能力。包括文本、音频、图像、视频、网络和轨迹等数据。受过传统商务智能和统计学训练的人,对于处理结构化数据非常在行,但是处理非结构化数据往往比较头痛比如分布好做抽样,网络怎么进行抽样?所以,对于常见的,特别是和企业自身业务有密切关系的非结构化数据,一定要有一支队伍能够挖掘其间价值,甚至将其转化为结构化的数据。
第二,大数据下的机器学习的能力。绝大部分我们可以想象到的应用问题,其本质都是分类或者预测问题,包括个性化推荐、精分营销、员工绩效管理、银行信用卡征信、小微企业贷款、生产线控制、精准广告和网点选择,等等。解决这些问题最有力的武器就是机器学习!特别是在大数据环境下,很多高阶的核函数慢得不行,大量的学习都必须采用线性学习器;而且数据非常多,很多时候都是在强噪音环境下寻找弱信号,单一分类器往往效果一般,必须要做集成学习。举个例子,在Netflix举办的百万美元电影个性化推荐大赛中,我们做过一些很优美的单模型,但是比起在比赛中最后获胜的集成学习模型,至少从精度上来说是弱爆了!有的读者要问了,高性能存储计算难道不重要吗?不得有一些懂Hadoop,懂Spark的技术高手吗?要不要在CPU阵列里面加几块GPU甚至可编程逻辑阵列呢?这个也重要,但是企业如果实力足够,可以采用成熟的解决方案,国际上顶尖的大数据服务商,例如IBM、HP和Intel都有不错的方案。但是我说的上述两点,是给企业培养人才和能力,而且至今也没有特别好的成熟的解决方案,所以更重要。
最后,企业怎么建立这样的能力呢?首要办法是能够招聘到一流的大数据人才多花点钱和股票。第二选择是以显示度项目为牵引,通过外部合作,培养自己的数据分析团队,既解决问题,又学习能力。企业做这类的合作,不要老想着一次性把所有东西都外包出去,要探索新方式,看看能不能成立联合小组共同进行研发,多投入一些人去学习。有一些供应商,特别是在某些方面有专长,但是还不属于国际一流的供应商,在发展过程中是能够接受企业这种要求的。
Step 5. 建设外部数据的战略储备
企业走到这一步,就有点现代大数据企业的理念了,因为它不再仅仅局限于自己业务的数据了,开始看外面的世界了很多大数据的重大创新,都是来源于把数据放在产生数据的业务体系之外去应用。举个例子,一个服装企业要解决设计生产的规划问题,仅仅看自己的销售记录还不够,要不要看看淘包、天猫和京东上服装的整体销售,了解什么款式、什么颜色、什么价位的服装在哪个地区最受欢迎呢?这就需要外部数据了!
事实上,外部数据对于市场拓展、趋势分析、竞品分析、人才招聘、用户画像和产品推荐等意义重大,而网站、论坛、社交媒体和电商平台上聚集了很多有重要价值的公开数据,这些数据中的大部分可以通过分布式深网爬虫技术直接高效采集。所以,企业要有意识地开始建立自己的外部数据战略储备,不要数到用时方恨少。一方面,企业可以自建具备采集、清洗、存储和索引等功能的自动化系统,自动积累外部数据;另一方面,企业可以通过和数据供应商合作,得到一些亟需的数据。
Step 6. 建立数据的外部创新能力
企业很容易局限在自己的业务中不能自拔。所以,让企业理解外面的数据能够帮助解决自己业务遇到的问题比较容易,因为企业主和员工们每天都在想怎么解决这些问题,反过来,让他们去思考自己业务的数据能不能在其他地方产生重大价值,帮到其他企业,他们就没有那么敏感了。其实,这些创新性的想法往往能够带来新的巨大价值。比如,Google利用自身搜索业务产生的数据,进行电价和传染病流行情况的预测,取得了巨大成功。
事实上,企业通过智能终端、传感网络、物流记录、网点记录和电子商务平台,等等,获得的第一手数据,很多都可以用于支持在跨领域交叉销售、环境保护、健康管理、智慧城市、精准广告和房地价预测等方面的创新型应用。把握住这些机会,就能够放大企业当前业务的价值,带来持久可观的收益。
Step 7. 推动自身数据的开放与共享
伟大的企业懂得如何把最聪明的人集合起来,为自己服务。
企业有了大量数据和一定的分析能力后,不能故步自封,而要充分借助社会的力量,尽最大可能发挥数据潜藏的价值。Netflix曾经公开了包含50多万用户和17 770部电影的在线评分数据,并悬赏100万美元奖励能够将Netflix现有评分预测准确度提高10%的团队。现在的Netflix已经不再是一家电影在线租赁公司,而是国际一流的大数据企业了。除了法律上因为安全和隐私不能开放共享的数据,相当一部分都能够以各种方式开放出来这种开放会带来更大价值!国际化的如 Kaggle(英文平台,www.kaggle.com),国内如 DataCastle(中文平台,www.pkbigdata.com),都是很有影响力的大数据创新竞赛平台。举个例子,电子科技大学大数据研究中心曾经在DataCastle上举办过学生成绩预测的比赛,总奖金才50 000元,却吸引了915支队伍2 000余名参赛者参加比赛,其中200多只队伍来自于985和211知名高校。这里面最佳解决方案的思路和方法已经被应用于教育大数据定量化管理的产品模块中了。最近现金巴士推出的微额借贷用户人品预测大赛更是吸引了1531支参赛队伍。还有一种最近新出的比赛方式,就是企业给出数据集的描述和样本数据,参赛选手设计创新型商业应用,提交产品说明或者商业计划书。
企业通过这些数据开放计划,可以学习最先进的算法和最具创新性的数据应用思路,实现自身数据的价值最大化。
Step 8. 数据产业的战略投资布局
企业有了一定的规模,光靠自己的能力还不够或者还太慢,就可以考虑通过投资的方式迅速形成自己的大数据能力甚至大数据产业布局。这类战略型的投资,有三个可能的出发点:
(1)产业集成。从投资方原有优势产业或大数据前景广阔的重点产业入手,进行全产业链布局,集中力量。
(2)技术集成。以数据采集、存储、计算、分析和可视化的创新型工具为主要投资对象,提供具有普适性的解决方案。
(3)数据集成。以数据流动共享,发挥外部价值为理念,投资一批能够紧密合作、数据互补和可控性强的企业。
对于原来没有从事过数据密集型和信息技术密集型行业的企业来说,第二类投资方向的风险特别大,建议主要从(1)(3)两类考虑。这种投资有别于财物投资,主要是考量被投资企业与投资方的整合能力,以及所能提供俄数据的稀缺性、独立性、多源性、流动性和互补性。
最后,补上这样一个结束语的目的,是希望读者能够从中领悟到企业的大数据之道!如果说有那么几家企业,受到这本书的启发,在商业模式、产品和业务方面产生了可观的价值,这就是作者最大的成功了。
|
|