新書推薦:
《
于胥斯原 乡族、风水与地方记忆
》
售價:HK$
177.0
《
以经治国与汉代社会
》
售價:HK$
98.6
《
我真正想要什么?:智慧瑜伽答问/正念系列
》
售價:HK$
58.2
《
元朝理财记 从成吉思汗的崛起到元朝的衰亡
》
售價:HK$
98.6
《
欧洲史:一本书历览欧洲数千年兴衰起伏,理解欧洲文明何以铸就今日世界
》
售價:HK$
333.8
《
趣学CCNA——路由与交换(第2版)
》
售價:HK$
100.6
《
世界航空地理(世界国别与区域地理研究丛书)
》
售價:HK$
244.2
《
学术的中心:英法德美
》
售價:HK$
87.4
|
內容簡介: |
全书围绕Alink(阿里在Flink基础上做的开源版本)的展开,以实例为主阐述Alink的使用。?以机器学习的知识架构将各个章节串联起来,每个章节配合实例,用户更容易理解和入手尝试。?数据会采用读者能免费下载的数据集,在加上Alink本身是开源的、免费的。用户试用起来没有成本。?实例实现的源代码,准备放在Alink开源git上,大家容易看到,可以直接下载,代码旁边会有实体书的介绍?以机器学习的知识架构将各个章节串联起来,每个章节配合实例,用户更容易理解和入手尝试。?数据会采用读者能免费下载的数据集,在加上Alink本身是开源的、免费的。用户试用起来没有成本。?实例实现的源代码,准备放在Alink开源git上,大家容易看到,可以直接下载,代码旁边会有实体书的介绍
|
關於作者: |
2004年获南开大学数学博士学位;随后在南开大学信息学院从事博士后研究工作;2006年加入微软亚洲研究院,进行符号计算、大规模矩阵计算及机器学习算法研究;2010年加入阿里巴巴,从事大数据相关的统计和机器学习算法研发。著有《重构大数据统计》《机器学习在线》等。
|
目錄:
|
目 录VII目 录第1章 Alink快速上手 ...................................................................................................... 11.1 Alink是什么 ..............................................................................................................11.2 免费下载、安装 ........................................................................................................21.3 Alink的功能 ..............................................................................................................21.3.1 丰富的算法库 ................................................................................................21.3.2 多样的使用体验 ............................................................................................31.3.3 与SparkML的对比 .......................................................................................41.4 关于数据和代码 ........................................................................................................51.5 简单示例 ....................................................................................................................61.5.1 数据的读/写与显示 .......................................................................................61.5.2 批式训练和批式预测 ....................................................................................71.5.3 流式处理和流式预测 ..................................................................................101.5.4 定义Pipeline,简化操作 ............................................................................ 111.5.5 嵌入预测服务系统 ......................................................................................13第2章 系统概况与核心概念 .......................................................................................... 152.1 基本概念 ..................................................................................................................152.2 批式任务与流式任务 ..............................................................................................16Alink 权威指南:基于 Flink 的机器学习实例入门(Python)VIII2.3 Alink=A+link ...........................................................................................................192.3.1 BatchOperator和StreamOperator ...............................................................202.3.2 link方式是批式算法/流式算法的通用使用方式 ......................................212.3.3 link的简化 ...................................................................................................242.3.4 组件的主输出与侧输出 ..............................................................................252.4 Pipeline与PipelineModel .......................................................................................252.4.1 概念和定义 ..................................................................................................252.4.2 深入介绍 ......................................................................................................272.5 触发Alink任务的执行 ...........................................................................................292.6 模型信息显示 ..........................................................................................................312.7 文件系统与数据库 ..................................................................................................352.8 Schema String ..........................................................................................................37第3章 文件系统与数据文件 .......................................................................................... 393.1 文件系统简介 ..........................................................................................................393.1.1 本地文件系统 ..............................................................................................403.1.2 Hadoop文件系统 .........................................................................................423.1.3 阿里云OSS文件系统 .................................................................................443.2 数据文件的读入与导出 ..........................................................................................463.2.1 CSV格式 .....................................................................................................473.2.2 TSV格式、LibSVM格式和Text格式 ......................................................543.2.3 AK格式 .......................................................................................................58第4章 数据库与数据表 .................................................................................................. 614.1 简介 ..........................................................................................................................614.1.1 Catalog的基本操作 .....................................................................................614.1.2 Source组件和Sink组件 .............................................................................624.2 Hive示例 .................................................................................................................634.3 Derby示例 ...............................................................................................................664.4 MySQL示例 ............................................................................................................68目 录IX第5章 支持Flink SQL ................................................................................................... 705.1 基本操作 ..................................................................................................................705.1.1 注册 ..............................................................................................................705.1.2 运行 ..............................................................................................................715.1.3 内置函数 ......................................................................................................745.1.4 用户定义函数 ..............................................................................................745.2 简化操作 ..................................................................................................................755.2.1 单表操作 ......................................................................................................765.2.2 两表的连接(JOIN)操作 ..........................................................................805.2.3 两表的集合操作 ..........................................................................................82第6章 用户定义函数(UDF/UDTF) ............................................................................ 876.1 用户定义标量函数(UDF) ..................................................................................876.1.1 示例数据及问题 ..........................................................................................886.1.2 UDF的定义 .................................................................................................886.1.3 使用UDF处理批式数据 ............................................................................896.1.4 使用UDF处理流式数据 ............................................................................906.2 用户定义表值函数(UDTF) ...............................................................................926.2.1 示例数据及问题 ..........................................................................................926.2.2 UDTF的定义 ...............................................................................................926.2.3 使用UDTF处理批式数据 ..........................................................................93
|
|