登入帳戶　 \|　訂單查詢　 \|　購物車/收銀台(0)　\|　在線留言板　 \|　付款方式　 \|　運費計算　 \|　聯絡我們　 \|　幫助中心　\|　加入書簽
		會員登入新用戶登記

HOME

新書上架

暢銷書架

好書推介

2025年度TOP

臺灣用戶

品種：超過100萬種各類書籍/音像和精品，正品正價，放心網購，悭钱省心

服務：香港／台灣／澳門／海外

送貨：速遞／郵局／服務站

新書上架：簡體書繁體書
暢銷書架：簡體書繁體書
好書推介：簡體書繁體書

一月出版：大陸書台灣書
12月出版：大陸書台灣書
11月出版：大陸書台灣書
十月出版：大陸書台灣書
九月出版：大陸書台灣書
八月出版：大陸書台灣書
七月出版：大陸書台灣書
六月出版：大陸書台灣書
五月出版：大陸書台灣書
四月出版：大陸書台灣書
三月出版：大陸書台灣書
二月出版：大陸書台灣書
一月出版：大陸書台灣書
12月出版：大陸書台灣書

『簡體書』数据采集、清洗与标注

書城自編碼： 4172082
分類：簡體書→大陸圖書→教材→高职高专教材
作者：曾敏等
國際書號(ISBN)： 9787111792314
出版社：机械工业出版社
出版日期： 2024-10-01

頁數/字數： /
書度/開本： 16开釘裝：平装

售價：HK$ 75.9

我要買件

** 我創建的書架 **
未登入.

新書推薦：

《大历史学家——世界100位著名历史学家画传》
售價：HK$ 162.8

《欧洲私法：1800-1914 》
售價：HK$ 327.8

《教琴日记》
售價：HK$ 66.0

《西方国家安全理论演进》
售價：HK$ 85.8

《记号132 制造时间：人类计时简史》
售價：HK$ 75.9

《变形金刚全新漫画战火重燃+故土难归+绝境逢生（全3册）（能量块宇宙系列合订本，刚丝不容错过，美国漫画》
售價：HK$ 224.4

《看见国家宝藏：60件国宝讲述中华文明》
售價：HK$ 140.8

《闺思：宋元社会变迁下的女性与贞节观》
售價：HK$ 107.8

編輯推薦：

本书在内容选材上，旨在为读者提供一套全面、实用且前沿的数据处理知识体系，特别是针对数据分析与神经网络训练前的数据处理流程。
1.不仅涵盖了数据采集、数据清洗和数据标注的基本步骤，还对这些步骤进行了深入的解析和全过程介绍。读者能够系统地了解数据从原始状态到可供分析或模型训练状态的全流程，形成对数据处理的完整认识。
2.特别注重真实采集场景的介绍，如工业产线上的图像采集和自动驾驶过程中的图像及视频采集。这些场景涉及多学科交叉的知识和技能，是提升读者职业能力的关键。
3.紧跟技术发展前沿，介绍了最新的光学仪器设备、传感器、清洗软件和自动标注工具等。这些技术和工具的应用不仅提高了数据处理的效率和准确性，也为读者提供了更多样化的学习选择。
4.通过多媒体课件、微课资源以及实训练习，本书将理论知识与实际操作相结合，使读者能够直观地了解并掌握数据采集的技术和方法，提高其在实际工作中的应用能力。此外，还将在超星平台开设在线开放课程，建立跨地域的教学交流讨论区。

內容簡介：

本书围绕数据采集、清洗和标注三个环节展开，旨在为读者提供全面而深入的数据处理知识。首先介绍了数据采集的基础，从原始数据采集与互联网数据采集两个角度，阐述了数据采集的常用技术和方法。其次介绍了数据清洗的知识要点，针对结构化和非结构化两种数据组织形式，展现了如何通过有效的清洗技巧提升数据质量。接着通过文本、图像、视频、语音，以及点云等多种数据类型的标注实践，详述了不同类型数据的标注方法。最后，通过两个综合案例，将上述三个关键环节贯穿起来，并借助机器学习模型的性能指标来评估数据处理的效果，帮助读者建立起对整个数据处理链条的全局理解。
全书力求理实并重，在阐述概念与方法的同时，辅以丰富的实战案例，确保内容既具可操作性，又易于消化吸收。本书可作为高职高专大数据技术、人工智能技术应用、物联网应用技术等专业相关课程的教材，也可作为“人工智能训练师”职业技能认证培训的参考书。

關於作者：

曾敏，上海电子信息职业技术学院副教授、通信与信息工程学院专任教师，上海交通大学计算机系统与结构专业工学博士，韩国延世大学电子信息工程学院博士后。以一作在IEEE Transactions on Information、IEEE Transactions on Communication、Designs，Codes and Cryptography、IEEE International Symposium of Information Theory、Applied Optics 和J. Opt. Soc. Am. A.等国际重要期刊和会议上发表论文14篇；在通信学报、上海交通大学学报、计算机工程等国内核心期刊和会议上发表论文4篇；出版教材3本。主要研究兴趣有通信编码、序列分析和计算机视觉。

前言
第 1 章数据采集基础
1.1 何为数据采集
1.2 初识数据采集基础
1.2.1 数据组织形式
1.2.2 数据采集工具
1.2.3 数据采集场景
1.2.4 数据安全与隐私保护
1.3 搭建数据采集环境
1.3.1 安装配置 Python 软件包
1.3.2 安装配置 MySQL 软件包
习题 1
第 2 章文件类型与编码
2.1 文件类型与编码相关概念
2.2 文本文件与编码
2.2.1 TXT 格式
2.2.2 CSV 格式
2.2.3 XLS 和 XLSX 格式
2.2.4 JSON 格式
2.2.5 HTML 和 XML 格式
2.3 图像文件与编码
2.3.1 JPEG 和 JPG 格式
2.3.2 PNG 格式
2.3.3 BMP 格式
2.3.4 GIF 格式
2.4 视频文件与编码
2.4.1 AVI 格式
2.4.2 MP4 格式
2.4.3 MOV 格式
2.4.4 WMV 格式
2.5 语音文件与编码
2.5.1 WAV 格式
2.5.2 MP3 格式
2.5.3 AAC 格式
2.5.4 FLAC 格式
习题 2
第 3 章原始数据采集
3.1 原始数据采集相关概念
3.1.1 原始数据常见类型
3.1.2 原始数据采集常用方法
3.1.3 原始数据采集工具
3.2 传感器数据采集
3.2.1 传感器与传感器网络
3.2.2 传感器数据采集流程及技术手段
3.3 使用温湿度传感器采集数据
3.3.1 温湿度传感器
3.3.2 树莓派
3.3.3 采集温湿度传感器数据
3.4 使用图像传感器采集数据
3.4.1 图像传感器
3.4.2 光源
3.4.3 焦距、光圈和曝光时间
3.4.4 FOV 和 ROI
3.4.5 采集图像传感器数据
习题 3
第 4 章互联网数据采集
4.1 互联网数据采集相关概念
4.1.1 数据来源及组织方式
4.1.2 静态网页与动态网页
4.1.3 网络爬虫基本过程
4.2 使用 Python 库采集数据
4.2.1 请求库
4.2.2 解析库
4.2.3 存储库
4.2.4 数据采集实例
4.3 使用 Scrapy 框架采集数据
4.3.1 认识 Scrapy
4.3.2 创建 Scrapy 项目
4.3.3 定义 Items
4.3.4 编写 Spiders
4.3.5 定义 Pipelines
4.3.6 设置 Settings
4.3.7 运行 Spiders 采集数据
习题 4
第 5 章数据清洗
5.1 何为数据清洗
5.2 清洗质量控制
5.2.1 数据清洗流程
5.2.2 数据清洗的质量评估
5.3 ETL 技术
5.3.1 ETL 架构
5.3.2 ETL 工具
5.3.3 OpenRefine 工具的使用
习题 5
第 6 章数据清洗任务实施
6.1 文本数据清洗
6.1.1 文本清洗的相关概念
6.1.2 文本清洗工具
6.1.3 文本清洗案例
6.2 图像数据清洗
6.2.1 图像清洗的相关概念
6.2.2 图像清洗工具
6.2.3 图像清洗案例
6.3 视频数据清洗
6.3.1 视频清洗的相关概念
6.3.2 视频清洗工具
6.3.3 视频清洗案例
6.4 语音数据清洗
6.4.1 语音清洗的相关概念
6.4.2 语音清洗工具
6.4.3 语音清洗案例
习题 6
第 7 章数据标注
7.1 何为数据标注
7.2 数据标注质量控制
7.2.1 数据标注流程
7.2.2 标注质量检测
7.2.3 标注质量与机器学习
7.3 数据标注的现状与未来
7.3.1 数据标注主要应用领域
7.3.2 数据标注的未来趋势
习题 7
第 8 章数据标注任务实施
8.1 文本数据标注
8.1.1 文本标注的相关概念
8.1.2 文本标注工具
8.1.3 文本标注案例
8.2 图像数据标注
8.2.1 图像标注的相关概念
8.2.2 图像标注工具
8.2.3 图像标注案例
8.3 视频数据标注
8.3.1 视频标注的相关概念
8.3.2 视频标注工具
8.3.3 视频标注案例
8.4 语音数据标注
8.4.1 语音标注的相关概念
8.4.2 语音标注工具
8.4.3 语音标注案例
8.5 点云数据标注
8.5.1 点云标注的相关概念
8.5.2 点云标注工具
8.5.3 点云标注案例
习题 8
第 9 章数据处理全过程案例
9.1 客户评论情感分析
9.1.1 客户评论数据采集
9.1.2 客户评论数据清洗
9.1.3 客户评论数据标注
9.1.4 文本情感分类模型训练
9.2 智能货柜商品检测
9.2.1 智能货柜数据采集
9.2.2 智能货柜数据清洗
9.2.3 智能货柜数据标注
9.2.4 图像检测模型训练
参考文献

內容試閱：

在当今这个数据驱动的时代，数据已经成为推动各行各业创新和发展的核心资源。从商业决策到科学研究，从医疗健康到智能制造，数据的采集、清洗与标注是实现数据价值转化的基础步骤。随着大数据技术的发展和人工智能应用的普及，高质量的数据处理变得尤为重要。然而，如何有效地进行数据采集、清洗与标注，仍然是许多企业和机构面临的挑战。
本书旨在为读者提供一套全面且实用的方法论和技术工具，帮助他们在处理数据的过程中更加高效和准确。全书共9章，具体内容如下。
第1章数据采集基础：介绍了数据采集的定义、数据组织形式，以及数据采集工具和数据采集场景。
第2章文件类型与编码：系统介绍了文本、图像、视频和语音四种文件类型的多种存储格式和编码。
第3章原始数据采集：以温湿度传感器和图像传感器的数据采集为例，重点介绍了原始数据采集的流程和方法。
第4章互联网数据采集：通过实例介绍了利用Python库和Scrapy框架采集互联网数据的实践。
第5章数据清洗：介绍了数据清洗的定义、清洗质量的控制，以及ETL架构和工具。
第6章数据清洗任务实施：通过大量实例展示了文本、图像、视频和语音四种不同文件类型的清洗方法和工具。
第7章数据标注：介绍了数据标注的基本概念和标注质量控制，并讨论了标注质量与机器学习的关系。
第8章数据标注任务实施：通过大量实例详细说明了文本、图像、视频、语音和点云数据的标注方法和工具。
第9章数据处理全过程案例：通过两个数据处理全过程案例，详实介绍了不同应用场景下，数据采集、清洗和标注的实施过程，并将数据处理的结果“喂入”机器学习算法，利用算法性能反思数据处理的质量，帮助读者建立起数据“处理-检验-反思-再处理-再检验”的迭代闭环，提高数据质量意识。
本书有如下特色。
强调数据处理全过程意识：带领读者一步步认识数据、获取数据、处理数据和运用数据，环环相扣，帮助读者树立数据质量意识和责任感。
重视实战导向理实结合：本书不仅涵盖了相关理论知识，还提供了大量实例和代码示例，帮助读者更好地理解和掌握数据处理的相关技能。
关注原始数据采集：通过传感器数据采集，读者可建立对“第一手数据”的敬畏感。
注意数据质量反馈：通过机器学习的模型训练，反省数据处理的质量，读者可建立数据处理迭代闭环的思维。
本书的配套教学资源包括课件、源代码和相应的数据集。无论是初学者还是有一定经验的数据从业者，本书都能够成为读者在数据处理旅程中的一位良师益友，帮助读者不断提升自己的技能，最终实现数据价值的最大化。
本书由曾敏、陈直、李昉和肖佳编著，其中，曾敏编写了第1、2、4、5、8、9章和第3.1～3.3节，陈直编写了第3.4节，李昉编写了第7章，肖佳编写了第6章。在编写过程中，本书参阅了许多文献，从中借鉴了一些好的思路和有用的素材，在此向相关作者表示感谢。
由于编者水平和能力有限，书中难免有疏漏之处，也恳请各位同仁和广大读者给予批评指正。
编　者

書城介紹　 \|　合作申請　\|　索要書目　 \|　新手入門　\|　聯絡方式　 \|　幫助中心　\|　找書說明　 \|　送貨方式　\|　付款方式	香港用户　 \|　台灣用户　\|　海外用户

	megBook.com.hk
Copyright © 2013 - 2026 （香港）大書城有限公司　 All Rights Reserved.