| 
 新書推薦:
 
  《 
			政策与对策 宋代政治史探索 大沨丛书009
			》
 售價:HK$ 
			94.6
 
  《 
			美国货币与财政史(1961-2021)
			》
 售價:HK$ 
			118.8
 
  《 
			中华后土文化·万荣后土祠卷
			》
 售價:HK$ 
			184.8
 
  《 
			植梦花园:从游走世界到回归故乡的园艺旅程
			》
 售價:HK$ 
			96.8
 
  《 
			鲍鹏山新批水浒传(全三册)
			》
 售價:HK$ 
			327.8
 
  《 
			中国石窟音乐图像大典
			》
 售價:HK$ 
			294.8
 
  《 
			希波战争
			》
 售價:HK$ 
			96.8
 
  《 
			泥土之美——探寻泥咕咕的手工艺与生活文化
			》
 售價:HK$ 
			107.8
 
 
 | 
         
          | 編輯推薦: |   
          | 本书是新兴领域“十四五”高等教育教材,系统地介绍了特征工程、多类型数据表征、数据抽样、图计算、随机优化算法、相似性度量、关联性分析等相关知识与方法,涵盖数据表征、数据计算和数据挖掘等多方面的内容。本书从数据科学与工程的基本概念和流程出发,逐步引领读者进入数据科学的核心领域,全面理解和掌握数据科学的精髓,为进一步深入学习机器学习算法建立扎实的算法基础。 |  
         
          | 內容簡介: |   
          | 本书对数据科学与工程中的算法基础进行了全面的论述,把读者引入数据科学的大门,为进一步学习和掌握大数据分析算法提供有力的支撑。本书介绍的数据科学与工程中的算法基础包括特征工程、数据表征、数据抽样、随机优化算法和关联性分析等,侧重内容的科学性、实用性和前沿性。本书结构上注重理论与实践并重,各章通过案例引出问题,并深入介绍回答类似问题需要的知识,最后通过实际案例串联本章知识点,可以使读者感受到算法的价值及其在解决实际问题中的实用性。
來源:香港大書城megBookStore,http://www.megbook.com.hk 本书可以作为高等学校大数据、计算机等相关专业的教学用书,对科研机构的研究人员、工程技术人员也有一定的参考价值。
 |  
         
          | 目錄: |   
          | 第1章绪论 1.1概况
 1.2数据分析
 1.2.1流程
 1.2.2算法分类
 1.2.3基本原则
 1.3算法基础
 1.4本章小结
 习题
 第2章特征工程
 2.1问题导入
 2.2特征提取
 2.3特征探索性分析
 2.3.1单变量分析
 2.3.2多变量分析
 2.4特征预处理
 2.4.1缺失值处理
 2.4.2异常值处理
 2.4.3特征变换
 2.5特征选择
 2.5.1过滤法
 2.5.2封装法
 2.5.3嵌入法
 2.6案例: 工业设备信号特征工程
 2.7本章小结
 习题
 第3章多类型数据表征
 3.1问题导入
 3.2时序数据表征
 3.2.1频域特征
 3.2.2时频域特征
 3.3文本数据表征
 3.3.1词袋模型
 3.3.2TFIDF特征
 3.3.3词向量嵌入
 3.4图像数据表征
 3.4.1图像处理基础
 3.4.2SIFT
 3.4.3HOG
 3.4.4深度特征表示
 3.4.5多模态特征融合
 3.5案例: 农作物病虫害图像表征
 3.6本章小结
 习题
 第4章数据抽样
 4.1问题导入
 4.2概率抽样
 4.3非均衡抽样
 4.3.1样本分布不均衡问题
 4.3.2过采样
 4.3.3欠采样
 4.4数据流抽样
 4.4.1数据流抽样问题
 4.4.2蓄水池抽样
 4.5蒙特卡洛抽样
 4.5.1直接采样
 4.5.2接受拒绝采样
 4.5.3重要性采样
 4.6案例: 基于SMOTE的信用卡交易欺诈数据采样
 4.7本章小结
 习题
 第5章图计算
 5.1问题导入
 5.2图网络
 5.2.1图网络表示
 5.2.2网络结构分类
 5.2.3网络描述性统计
 5.3图基础算法
 5.3.1图遍历
 5.3.2图分割
 5.4社区发现
 5.4.1模块度
 5.4.2GN算法
 5.4.3谱方法
 5.5GraphScope简介
 5.6案例: 基于谱聚类的图像分割
 5.7本章小结
 习题
 第6章随机优化算法
 6.1问题导入
 6.2梯度下降算法
 6.3随机梯度下降算法
 6.4梯度加速方法
 6.4.1动量法
 6.4.2Nesterov梯度加速
 6.4.3自适学习率加速方法
 6.5方差缩减
 6.5.1方差缩减技术
 6.5.2方差缩减算法
 6.6案例: 逻辑回归模型优化算法
 6.7本章小结
 习题
 第7章相似性度量
 7.1问题导入
 7.2相关系数
 7.2.1皮尔逊相关系数
 7.2.2余弦相似度
 7.2.3Jaccard相似系数
 7.3距离度量
 7.3.1欧氏空间的距离度量
 7.3.2流形空间的距离度量
 7.3.3时间序列的距离度量
 7.4概率散度
 7.4.1f散度
 7.4.2积分概率度量
 7.5案例: 金融时间序列数据分析
 7.6本章小结
 习题
 第8章关联性分析
 8.1问题导入
 8.2非线性相关性分析
 8.3典型关联分析
 8.4关联规则
 8.4.1关联规则描述
 8.4.2关联规则挖掘
 8.4.3数值型关联规则挖掘
 8.5因果分析
 8.5.1结构因果模型与图模型
 8.5.2因果效应评估
 8.6案例: 购物车数据挖掘
 8.7本章小结
 习题
 参考文献
 |  
         
          | 內容試閱: |   
          | 信息技术的飞速发展使数据的产生、存储和处理能力达到了前所未有的高度。数据的丰富性和复杂性带来了巨大的挑战,同时也蕴藏着巨大的机遇。如何挖掘不同类型数据中蕴藏的丰富信息,已经成为大数据时代面临的重要问题之一。数据科学与工程,作为一门新兴的交叉学科,正是为了应对这一挑战而诞生的。数据科学与工程以数据为研究对象,通过综合运用数学、统计学、计算机技术等方法对数据进行处理和分析,以实现数据的价值。数据科学与工程的核心是算法,它们是处理数据、提取信息、发现模式和预测未来的强大引擎。 本书旨在培养新工科背景下具备数据科学思维,掌握数据科学与工程算法的大数据专业人才。本书系统地介绍了特征工程、多类型数据表征、数据抽样、图计算、随机优化算法、相似性度量、关联性分析等相关知识与方法,涵盖数据表征、数据计算和数据挖掘等多方面的内容。本书从数据科学与工程的基本概念和流程出发,逐步引领读者进入数据科学的核心领域,全面理解和掌握数据科学的精髓,为进一步深入学习机器学习算法打下扎实的基础。
 全书共8章,内容包括绪论、特征工程、多类型数据表征、数据抽样、图计算、随机优化算法、相似性度量、关联性分析,不仅覆盖了传统数据科学领域的重要算法,还涉及最新的研究进展,如图计算、因果分析、多模态数据融合等前沿技术,使得本书既具有广度又具有深度。同时,本书内容结构遵循学习规律: 首先通过“问题导入”,建立现实问题与数据科学与工程相关技术的关系,明确学习目标,激发学生学习数据科学与工程相关技术的兴趣; 然后,构建相关的知识体系,介绍算法及其演化,提高学生描述问题的表达能力、解决问题的算法思维能力; 在此基础上,通过剖析典型案例,有力提高学生对知识和方法的掌握与综合运用能力,并提升学生对复杂工程问题的分析能力、综合处理能力和创新探究能力; 最后对本章内容进行总结,并提供选择题、计算题、思考题等供读者练习。
 本书由徐明华、陈志刚、罗俊如担任主编,官威博士和郝亚东博士担任副主编。研究生丁言瑞、汪池和徐昕瑜参与了本书部分案例的编写,并参与了书稿的校对工作,徐守坤教授、石林教授、邵辉教授、胡超副教授等对本书提出了许多宝贵意见,这里一并表示感谢。
 本书在编写过程中参考和引用了许多专家和学者的资料,在此表示衷心的感谢。最后也要感谢所有为本书的编写、审校和出版付出辛勤劳动的工作人员。由于编者水平有限,时间仓促,书中难免存在不足之处,敬请读者批评指正。
 
 编者
 2024年12月
 |    |