新書推薦:
《
人体使用手册3:自愈力的逻辑(全面解读身体面对疾病时的反应逻辑,学习更多有效的系列家庭按摩)
》
售價:HK$
61.6
《
素描简史:从文艺复兴到现代艺术
》
售價:HK$
436.8
《
智慧宫丛书028·神工智能 诸神与古代世界的神奇造物
》
售價:HK$
87.4
《
街头健身训练指南
》
售價:HK$
266.6
《
留学早规划
》
售價:HK$
76.2
《
文化的演化:民众动机正在重塑世界
》
售價:HK$
88.5
《
布鲁克林有棵树(孩子喜欢的阅读经典读本 基于真实生活的全球经典成长小说 走出成长困境 追逐梦想 人生励志 自我塑造小说)
》
售價:HK$
76.2
《
构建未来教育图景:实践以学生为中心的育人模式
》
售價:HK$
87.4
|
編輯推薦: |
本书特色:系统覆盖大数据分析师岗位需要掌握的统计学、数据挖掘算法、数据可 视化知识和大数据相关技术(数据埋点、网络爬虫、数据仓库、ETL、 Hadoop、Spark)。经验分享:详细讲解大数据相关职业需要的技能、工作流程及面试方法。附赠资源:作者100分钟核心知识点分享视频及相关知识点思维导图/技能谱系图。
|
內容簡介: |
《大数据分析师面试笔试宝典》旨在帮助读者了解大数据分析师的工作内容、技能要求、各类常用技术的原理和可能应用的场景。 大数据分析是一个多学科交叉的领域,包含了统计学、计算机科学、运筹学乃至市场营销学等。《大数据分析师面试笔试宝典》并没有介绍大数据分析领域涉及的所有方面,而是根据当前用人单位对大数据分析师的需求,选择了其中较为重要的内容进行解析,将当前大数据分析涉及的热点技术一网打尽。 阅读《大数据分析师面试笔试宝典》需要具备一定的数理统计知识基础和计算机编程背景。本书尽量不去证明一些在理论界已有的结论,而是用浅显的语言来解释复杂的公式,以便读者更为轻松地掌握全书的知识,从而能够从容面对面试以及日常工作。
|
關於作者: |
周炎亮,全栈数据分析师,北京化工大学工程管理硕士。拥有10多年的数据分析经验,擅长将各种业务问题转化为可量化的数学模型。先后在咨询公司、互联网公司担任数据分析师,现在某工业互联网公司担任高级数据分析经理,致力于解决工业领域的数据分析问题。刘志全,博士,暨南大学网络空间安全学院副研究员、硕士生导师;近年来共在IEEE TITS、IEEE TDSC、IEEE IOTJ、IEEE TVT等国内外权威期刊/会议发表SCI/EI论文40余篇,申请/授权/公告国家发明专利/国外发明专利/PCT专利40余项。
|
目錄:
|
第1章 面试经验/1 1.1 大数据分析技能要求/1 1.1.1 数据分析师/1 1.1.2 数据开发工程师/4 1.1.3 数据挖掘工程师/7 1.1.4 职业能力模型/10 1.2 数据分析工作流程/10 1.2.1 组织架构/10 1.2.2 分析流程/11 1.3 数据分析师临场面试/13 1.3.1 如何准备面试/13 1.3.2 面试问题/16 1.4 本章总结/18第2章 统计学知识/19 2.1 概率知识/19 2.1.1 概率模型之间的关系解析/19 2.1.2 概率相关面试题/25 2.1.3 贝叶斯公式/28 2.2 参数估计/31 2.2.1 点估计/31 2.2.2 区间估计/34 2.3 假设检验/41 2.3.1 假设检验原理/41 2.3.2 两类错误/43 2.3.3 假设检验的常用方法/45 2.4 抽样技术解析/49 2.4.1 样本量影响因素分析/50 2.4.2 假设检验样本量计算/52 2.4.3 参数估计样本量计算/53 2.5 马尔可夫模型/54 2.5.1 马尔可夫过程原理/55 2.5.2 马尔可夫模型计算/55 2.6 隐马尔可夫模型/57 2.6.1 HMM和三类问题/57 2.6.2 求概率问题/58 2.6.3 预测问题/59 2.6.4 学习问题/60 2.7 EM算法/62 2.7.1 基本思想/62 2.7.2 算法流程/63 2.8 本章总结/63第3章 数据挖掘算法/65 3.1 常用聚类算法/66 3.1.1 Kmeans算法/66 3.1.2 DBSCAN算法/68 3.1.3 聚类算法评估/69 3.2 常用分类算法/74 3.2.1 决策树/74 3.2.2 朴素贝叶斯/79 3.2.3 KNN/80 3.2.4 SVM/81 3.2.5 逻辑回归/84 3.2.6 BP神经网络/88 3.3 集成学习算法/91 3.3.1 Bagging原理/92 3.3.2 随机森林/93 3.3.3 Boosting原理/95 3.3.4 Adaboost算法/96 3.3.5 Stacking算法/99 3.3.6 分类算法评估/100 3.3.7 分类算法小结/108 3.4 关联规则算法/108 3.4.1 Apriori/108 3.4.2 Fp_Growth/111 3.4.3 算法评估/112 3.5 数据降维算法/112 3.5.1 降维技术基本理论/112 3.5.2 特征选择/113 3.5.3 主成分分析/116 3.5.4 SVD分解/118 3.5.5 降维方法选择/121 3.6 数据升维方法/121 3.6.1 分箱/121 3.6.2 交互式特征/123 3.7 推荐算法/124 3.7.1 基于内容推荐/124 3.7.2 基于用户的协同过滤/125 3.7.3 基于物品的协同过滤/126 3.7.4 SVD推荐原理/127 3.7.5 推荐算法评估/130 3.8 模型优化方法/130 3.8.1 机器学习抽样/130 3.8.2 相似性度量/134 3.8.3 损失函数/136 3.8.4 过拟合与欠拟合/138 3.8.5 正则化方法/139 3.8.6 剪枝方法/141 3.8.7 模型选择/144 3.9 本章总结/145第4章 大数据技术解析/147 4.1 数据埋点技术/148 4.1.1 技术原理/148 4.1.2 代码埋点/149 4.1.3 可视化埋点/149 4.1.4 无埋点技术/150 4.1.5 埋点需求分析/150 4.1.6 选择部署方式/151 4.2 网络爬虫技术/152 4.2.1 聚焦爬虫工作流程/153 4.2.2 数据解析流程/154 4.2.3 爬行策略/154 4.2.4 网页更新策略/155 4.3 数据仓库技术/156 4.3.1 数仓名词解析/156 4.3.2 数据建模方法/161 4.3.3 数仓建设原则/164 4.3.4 SQL查询/166 4.3.5 SQL查询优化/170 4.4 ETL技术/171 4.4.1 数据质量评估/172 4.4.2 ETL流程/173 4.4.3 缺失值处理方法/177 4.4.4 异常值识别方法/179 4.5 Hadoop技术/180 4.5.1 Hadoop核心之HDFS/181 4.5.2 Hadoop核心之MapReduce/184 4.5.3 YARN/190 4.5.4 WordCount源码/192 4.5.5 MapReduce优化/194 4.6 Spark技术/196 4.6.1 Spark集群运行/196 4.6.2 Spark程序运行/199 4.6.3 Spark RDD/202 4.6.4 Spark存储/210 4.6.5 Spark 内存管理/216 4.6.6 Spark资源分配/222 4.6.7 Spark Shuffle机制/224 4.6.8 Spark的算子调优/230 4.6.9 数据倾斜问题解析/231 4.7 本章总结/235第5章 数据可视化/237 5.1 图表类型/237 5.2 绘图原则/243 5.3 ECharts快速上手/247 5.3.1 ECharts引入/247 5.3.2 准备DOM容器/248 5.3.3 柱状图示例/249 5.4 本章总结/249附录/250附录A 笔面试真题/250
|
內容試閱:
|
“大数据分析”这个职业在当前可谓炙手可热,几乎所有的公司都需要这样一个岗位来协助公司管理层运筹帷幄,一个具有三年工作经验的大数据分析师,年薪可达30万以上,对初入职场的人来说,非常有吸引力。 在人工智能技术日益发达的今天,有些职业通过引入“大数据分析”技术后形成了新的工作内涵,从而保证该职业长盛不衰。以会计职业为例,在计算机技术还不像今天这么发达时,其等同于记账,而加了“数据分析”技能后,该工种已经衍生出了像“财务分析”这样的新职业。 很多人不明白“数据分析”和“大数据分析”有什么区别,这两个职业称呼看上去一样,其实具体内涵还是有差别的。加了“大”字实际上是突出的数据规模,在小规模数据量下进行数据分析和在大规模数据量下进行数据分析是有很大不同的。 这里从三个方面进行简单说明:第一,小规模数据用Excel电子表格、关系型数据库就可以处理,而大规模数据需要用到复杂的分布式数据处理技术;第二,小规模数据意味着抽样,抽样就有风险,因此需要运用复杂的统计技术对数据结论进行验证,而大规模数据往往意味着全量,无须抽样,直接统计就可以代表总体的实际情况,得出错误结论的风险极低;第三,小规模数据往往维度较少,很难掌握业务的全貌,无法对业务进行精准预测,其结论往往只有参考价值,而无一锤定音的价值,而大规模数据可以帮助企业更为全面地掌握业务的状况,从而做出更为精准的预测—对业务进行预测才是最有价值的。 目前大部分公司招聘的都是大数据分析师,这样的人要可以胜任在大规模甚至超大规模数据集上进行数据分析的工作,这对传统数据分析师提出了很大的挑战—需要掌握大数据知识,但是还不能在技术路线上研究得过于深入,否则就变成了程序员。 可是,当你去问一个大数据分析师“成为一名大数据分析师要学什么”时,他/她很难给出一个准确的答复。这个和“程序员”有很大的区别,程序员的学习目标非常明确,学“Java”、学“C语言”……然后,深入学习……最后成为一名“高级软件工程师”。 大数据分析师这个职业很特别,需要用到数学知识、业务知识、营销知识、产品知识、编程知识、大数据知识……而且大部分知识都在不断更新。 事实上,真正的“数据分析技术”在中国的发展才不到10年,目前开设相关课程的大学也并不多。很多刚毕业的同学即使想主动学习相关技术,但是由于网络知识的零散特征,也很难体系化掌握。 基于以上所述的各种原因,再结合当前招聘公司公布的岗位需求,本书全面剖析了“大数据分析师”职业的技能,并引导读者对各类知识进行更深入的学习。 《大数据分析师面试笔试宝典》有别于各类培训教程,很少对理论进行推导,而是采用“拿来主义”,只求解决问题,因为工作中一般也不会进行理论推导。本书还有别于市面上其他同类型图书,对于知识点的讲解既不会“蜻蜓点水”,也不会过于深入,而是力求恰到好处,让读者能够刚好明白其中的原理,在工作和面试中均能用上。本书还有别于形形色色的互联网博客内容,要想在纷繁芜杂的互联网中获取正确的内容,是一件非常困难的事情,而本书作者通过查阅大量资料,结合自己十多年的工作经验,对所有知识点都以实战为基础进行了取舍。 希望读者朋友阅读本书后,能对相关职业有更深入的理解,从而在茫茫的职业大海中找到属于自己的那盏“明灯”。 本书共5章,从职业方向剖析、面试技巧解析,到数据分析最基础的统计学、算法知识,再到大数据处理技术,最后到数据可视化,贯穿解析了整个数据分析流程中的各个重要环节所需要的知识点。 第 1 章,讲解大数据相关职业需要的技能、工作流程以及面试方法,让读者对相关岗位有一个较为清晰的认识,从而找到更适合自己的职业方向。 第 2 章,讲解统计学基础知识。本章内容特点有三个:1)大部分知识点都和面试相关,同时考虑了知识点之间的衔接关系,以便形成一个完整的知识体系;2)重点讲解了使用统计学知识可以解决哪些实际问题,对于相关问题直接给出公式或者计算方法,由于舍弃了理论推导,因此要求读者具备一定的统计学基础;3)尽量使用一些生活当中的例子辅助读者理解相关统计学知识。 第 3 章,讲解有关数据挖掘算法的相关知识。大部分数据挖掘算法的原理非常简单,相关知识也非常容易从各种途径获得,但关于算法分析和评估的知识则比较稀少,因此本章对算法的原理和流程讲解较少,而以较大篇幅来讲解有关算法评估的知识,这些知识相比算法原理来说实战性更强,也是在面试过程中最能体现应聘者水平的地方。 第 4 章,讲解大数据相关知识。本章内容主要讲解了数据采集方法、数据仓库、ETL数据质量提升方法以及主流的两种分布式数据处理技术。限于篇幅,本章主要结合面试题对这些内容最为精华的部分进行了讲解。这些内容不仅适合相关开发人员阅读,而且也适合需要主动获取和处理大数据的纯数据分析人员学习。 第 5 章,讲解数据可视化相关知识。制作简洁易懂、美观大方且富有商业气息的图表可以说是每个大数据分析师的职业需求。本章以柱状
|
|