登入帳戶　 \|　訂單查詢　 \|　購物車/收銀台(0)　\|　在線留言板　 \|　付款方式　 \|　運費計算　 \|　聯絡我們　 \|　幫助中心　\|　加入書簽
		會員登入新用戶登記

HOME

新書上架

暢銷書架

好書推介

2025年度TOP

臺灣用戶

品種：超過100萬種各類書籍/音像和精品，正品正價，放心網購，悭钱省心

服務：香港／台灣／澳門／海外

送貨：速遞／郵局／服務站

新書上架：簡體書繁體書
暢銷書架：簡體書繁體書
好書推介：簡體書繁體書

一月出版：大陸書台灣書
12月出版：大陸書台灣書
11月出版：大陸書台灣書
十月出版：大陸書台灣書
九月出版：大陸書台灣書
八月出版：大陸書台灣書
七月出版：大陸書台灣書
六月出版：大陸書台灣書
五月出版：大陸書台灣書
四月出版：大陸書台灣書
三月出版：大陸書台灣書
二月出版：大陸書台灣書
一月出版：大陸書台灣書
12月出版：大陸書台灣書

『簡體書』数据处理与特征工程

書城自編碼： 4188972
分類：簡體書→大陸圖書→計算機/網絡→數據庫
作者：吕阳、王凤仪、李进著
國際書號(ISBN)： 9787122488343
出版社：化学工业出版社
出版日期： 2026-01-01

頁數/字數： /
書度/開本： 16开釘裝：平装

售價：HK$ 75.9

我要買件

** 我創建的書架 **
未登入.

新書推薦：

《踏入她们的河流》
售價：HK$ 96.8

《绿镜头——非洲》
售價：HK$ 96.8

《为自己工作我们的gap期生存游戏（一本“不务正业”的普通人访谈录，记录他们跳下轨道奔向旷野的冒险故》
售價：HK$ 68.2

《爱的修复：伴侣咨询中的冲突、理解与接纳》
售價：HK$ 76.8

《新金融战：数字货币与大国博弈》
售價：HK$ 96.8

《亲爱的波伏瓦：跨越时空的女性对话》
售價：HK$ 74.8

《替代式创新：关键核心技术突破的中国式路径》
售價：HK$ 97.9

《阴郁之人的晴朗之地》
售價：HK$ 68.2

第1章数据的重要性 001
1.1 数据在AI 大模型中的核心作用002
1.1.1 大模型的数据驱动特性002
1.1.2 数据与模型精度的关系004
1.2 数据质量对模型性能的影响006
1.2.1 数据噪声与模型偏差006
1.2.2 数据完整性与一致性007
1.3 大数据时代的数据挑战008
1.3.1 数据存储与管理008
1.3.2 数据隐私与安全009
1.4 新兴技术在数据处理中的应用 010
1.4.1 云计算与分布式存储 010
1.4.2 边缘计算与实时数据处理 011
1.4.3 人工智能和机器学习在数据处理中的应用 012
第2章数据采集与清洗 014
2.1 数据采集的方法 015
2.1.1 网络爬虫与数据抓取 015
2.1.2 数据库与数据集的利用 017
2.1.3 传感器与实时数据采集 017
2.2 数据清洗的技术022
2.2.1 缺失值处理022
2.2.2 噪声与异常值检测024
2.2.3 数据一致性与重复值处理027
第3章数据探索与可视化029
3.1 数据探索的目的与方法030
3.1.1 探索性数据分析（EDA）030
3.1.2 数据探索工具和技术 031
3.2 数据可视化技术032
3.2.1 基本图表与统计图表033
3.2.2 高级可视化技术033
3.3 数据特征和模式的发现034
3.3.1 数据分布与统计特征035
3.3.2 相关性分析037
3.4 新兴可视化技术038
3.4.1 增强现实（AR）与虚拟现实（VR）可视化039
3.4.2 动态与实时数据可视化040
第4章特征选择042
4.1 特征选择的重要性043
4.1.1 特征选择对模型性能的影响044
4.1.2 过拟合与特征选择045
4.2 常用特征选择方法047
4.2.1 过滤法048
4.2.2 包装法048
4.2.3 嵌入法049
4.3 特征选择后的评估指标049
4.3.1 特征重要性评分050
4.3.2 交叉验证050
4.4 新兴特征选择方法052
4.4.1 基于强化学习的特征选择052
4.4.2 自适应特征选择技术053
第5章特征提取055
5.1 特征提取的概念与意义056
5.1.1 特征提取在数据处理中的角色056
5.1.2 特征提取的基本流程058
5.2 从原始数据中提取特征的方法059
5.2.1 数值数据的特征提取059
5.2.2 类别数据的特征提取060
5.3 自动化特征提取工具与技术062
5.3.1 自动编码器062
5.3.2 深度学习中的特征提取064
5.4 新兴特征提取技术065
5.4.1 基于生成对抗网络（GAN）的特征提取066
5.4.2 迁移学习中的特征提取066
第6章特征构造068
6.1 特征构造的重要性069
6.1.1 特征构造对模型的影响069
6.1.2 领域知识在特征构造中的应用069
6.2 常用特征构造方法070
6.2.1 数学变换与组合070
6.2.2 领域知识与特征交互 071
6.3 特征构造的实践案例072
6.4 新兴特征构造技术073
6.4.1 基于图神经网络（GNN）的特征构造073
6.4.2 多模态数据的特征构造074
第7章数据转换076
7.1 数据标准化与归一化077
7.1.1 标准化方法077
7.1.2 归一化技术078
7.2 数据变换技术079
7.2.1 对数变换与幂变换079
7.2.2 离散化与二值化 081
7.3 新兴数据转换技术083
7.3.1 基于量子计算的数据变换083
7.3.2 自适应数据变换方法084
第8章降维技术087
8.1 降维的意义088
8.1.1 降维对计算复杂度的影响088
8.1.2 降维与数据可视化 089
8.2 主成分分析（PCA）089
8.2.1 PCA 的基本原理089
8.2.2 PCA 在实际中的应用 090
8.3 t-SNE 091
8.3.1 t-SNE 的基本原理 091
8.3.2 t-SNE 在高维数据中的应用 092
8.4 其他降维方法093
8.4.1 线性判别分析（LDA）093
8.4.2 非负矩阵分解（NMF）095
8.5 新兴降维技术097
8.5.1 基于深度学习的降维方法097
8.5.2 非线性降维技术097
第9章文本特征工程099
9.1 自然语言处理中的特征工程 100
9.1.1 NLP 中特征工程的重要性 100
9.1.2 NLP 中的常用特征 100
9.2 文本预处理 101
9.2.1 分词与词形还原 101
9.2.2 停用词与词频 102
9.3 文本特征提取方法 102
9.3.1 词袋模型（BoW） 102
9.3.2 TF-IDF 104
9.3.3 词向量与词嵌入表示 105
9.4 新兴文本特征提取技术 107
9.4.1 基于BERT 的特征提取 107
9.4.2 多语言嵌入技术 108
第10章图像和音频特征工程 110
10.1 图像数据的特征提取111
10.1.1 基本图像处理技术111
10.1.2 深度学习中的图像特征提取 113
10.2 音频数据的特征提取 115
10.2.1 时域与频域特征 115
10.2.2 声谱图与MFCC 116
10.3 新兴图像与音频特征提取技术 117
10.3.1 基于卷积神经网络（CNN）的特征提取 117
10.3.2 基于Transformer 的特征提取 118
第11章时间序列分析 120
11.1 时间序列数据的特点 121
11.1.1 时间序列数据的独特性 121
11.1.2 时间序列数据的预处理 123
11.2 时间序列特征提取 125
11.2.1 基本统计特征 125
11.2.2 滑动窗口与时间延迟嵌入 126
11.3 时间序列预测模型 128
11.4 新兴时间序列分析技术 130
11.4.1 基于注意力机制的时间序列分析 130
11.4.2 变分自编码器（VAE）在时间序列中的应用 131
第12章模型与特征的交互 132
12.1 模型选择对特征工程的影响 133
12.1.1 模型与特征选择的协同作用 133
12.1.2 不同模型对特征工程的要求 134
12.2 特征重要性评估与模型解释 135
12.2.1 特征重要性评估方法 136
12.2.2 模型解释与可解释性 137
12.3 不同模型的特征工程策略 138
12.3.1 线性模型 138
12.3.2 非线性模型 139
12.3.3 集成模型 140
12.4 新兴模型与特征交互技术 140
12.4.1 基于混合专家模型的特征工程 141
12.4.2 自适应模型选择与特征优化 141
第13章自动化特征工程 143
13.1 自动化特征选择 144
13.1.1 自动化特征选择工具 144
13.1.2 自动化特征选择的优势 146
13.2 自动化特征构造 146
13.2.1 自动化特征构造工具 147
13.2.2 实践中的自动化特征构造 148
13.3 自动化特征工程平台与实践案例 149
13.3.1 现有自动化特征工程平台介绍 149
13.3.2 自动化特征工程的成功案例 150
13.4 新兴自动化特征工程技术 151
13.4.1 基于AutoML 的特征工程 152
13.4.2 生成对抗网络（GAN）在特征工程中的应用 153

內容試閱：

在人工智能技术加速进化的浪潮中，大模型以其惊人的表现和跨领域的应用，正以前所未有的速度改变着我们的世界。从自动驾驶的精确导航，到医疗影像诊断的突破性进展，从语言翻译的自然流畅，到智能制造的效率提升，大模型技术已成为引领未来的核心力量。然而，这些技术成就的背后，并非仅仅依靠复杂的算法设计或庞大的计算资源，真正驱动大模型进步的核心，是数据——高质量、丰富且多样化的数据。
数据不仅是大模型学习的原料，更是提升模型性能的关键杠杆。它塑造了模型的认知能力，决定了其能否从混乱中发现规律，能否从海量信息中提取洞见。如果数据处理与特征工程这一决定性环节被低估甚至忽视，就会导致资源的浪费、模型性能的局限以及应用落地的困难。因此，如何高效地采集、清洗、转化数据，并构建出能充分表达问题特性的特征，成为每一个从事AI 大模型开发者的核心命题。
本书立足于这一关键问题，致力于成为AI 领域研究者和开发者的重要指引。通过系统梳理从数据采集到特征构造的完整流程，本书不仅详尽阐述了基础理论，还将理论应用于实际案例中，提供了丰富的实践指导。书中涵盖了多模态特征提取、深度学习驱动的特征工程，以及量子计算辅助的数据处理等新兴技术热点，为读者探索大模型技术的前沿领域提供了坚实的基础。同时，精选的金融、医疗、工业等领域案例，将理论与实践结合，让读者能够看到技术在真实场景中的价值体现。在结构设计上，本书从基础概念入手，层层深入，帮助读者从理解数据的重要性，到掌握复杂数据处理技术，再到探索前沿的特征工程创新。不论是希望快速上手数据处理的技术新人，还是寻求技术突破的资深开发者，本书都能提供从实践到思考的全方位支持。
在这个数据与智能深度融合的时代，数据不仅是燃料，更是点燃技术革命的火花。我们希望通过本书，帮助读者解锁数据驱动AI 的真正潜力。无论读者是在实验室专注于研究，还是在产业中推动创新，本书都将是不可或缺的伙伴。让我们一起，拥抱数据的力量，见证人工智能创造未来的辉煌篇章。
著者

書城介紹　 \|　合作申請　\|　索要書目　 \|　新手入門　\|　聯絡方式　 \|　幫助中心　\|　找書說明　 \|　送貨方式　\|　付款方式	香港用户　 \|　台灣用户　\|　海外用户

	megBook.com.hk
Copyright © 2013 - 2026 （香港）大書城有限公司　 All Rights Reserved.