登入帳戶  | 訂單查詢  | 購物車/收銀台(0) | 在線留言板  | 付款方式  | 運費計算  | 聯絡我們  | 幫助中心 |  加入書簽
會員登入   新用戶登記
HOME新書上架暢銷書架好書推介特價區會員書架精選月讀2024年度TOP分類瀏覽雜誌 臺灣用戶
品種:超過100萬種各類書籍/音像和精品,正品正價,放心網購,悭钱省心 服務:香港台灣澳門海外 送貨:速遞郵局服務站

新書上架簡體書 繁體書
暢銷書架簡體書 繁體書
好書推介簡體書 繁體書

六月出版:大陸書 台灣書
五月出版:大陸書 台灣書
四月出版:大陸書 台灣書
三月出版:大陸書 台灣書
二月出版:大陸書 台灣書
一月出版:大陸書 台灣書
12月出版:大陸書 台灣書
11月出版:大陸書 台灣書
十月出版:大陸書 台灣書
九月出版:大陸書 台灣書
八月出版:大陸書 台灣書
七月出版:大陸書 台灣書
六月出版:大陸書 台灣書
五月出版:大陸書 台灣書
四月出版:大陸書 台灣書

『簡體書』实体消解指南:使用Python进行数据匹配 [英]迈克尔·希勒

書城自編碼: 4118811
分類:簡體書→大陸圖書→計算機/網絡程序設計
作者: [英]迈克尔·希勒
國際書號(ISBN): 9787111783299
出版社: 机械工业出版社
出版日期: 2025-06-01

頁數/字數: /
書度/開本: 16开 釘裝: 平装

售價:HK$ 75.9

我要買

share:

** 我創建的書架 **
未登入.



新書推薦:
壹卷YeBook 宋学与宋代文学观念(修订版)论世衡史丛书 一本讲述中国文化思想史上宋代学术与宋代诗学之间紧密联系的专著
《 壹卷YeBook 宋学与宋代文学观念(修订版)论世衡史丛书 一本讲述中国文化思想史上宋代学术与宋代诗学之间紧密联系的专著 》

售價:HK$ 90.2
政通四海:清代公文、驿递和朝贡体系
《 政通四海:清代公文、驿递和朝贡体系 》

售價:HK$ 97.9
超级大国的撕裂:美国250年政党政治史(历史学堂)
《 超级大国的撕裂:美国250年政党政治史(历史学堂) 》

售價:HK$ 63.8
征服密码 亚欧强盛的六大要素
《 征服密码 亚欧强盛的六大要素 》

售價:HK$ 82.5
国医名师肿瘤临证传薪录
《 国医名师肿瘤临证传薪录 》

售價:HK$ 107.8
大国智造:中国制造的新质生产力转型密码
《 大国智造:中国制造的新质生产力转型密码 》

售價:HK$ 74.8
阿特伍德写作课(玛格丽特·阿特伍德作品系列)
《 阿特伍德写作课(玛格丽特·阿特伍德作品系列) 》

售價:HK$ 85.8
香乘(珍藏版)
《 香乘(珍藏版) 》

售價:HK$ 217.8

編輯推薦:
本书是数据工程师的实战宝典!从实体消解基础概念切入,系统拆解数据标准化、文本模糊匹配(Levenshtein距离、Metaphone算法)、概率模型(Fellegi-Sunter模型、贝叶斯因子)、聚类分块等核心技术,更独家涵盖Splink框架、谷歌云Dataproc集群部署、企业知识图谱API等前沿工具。作者以真实金融反欺诈案例贯穿全书,手把手教学Python代码实现,并前瞻隐私集合求交(PSI)等合规技术。经Splink工具作者Robin Linacre力荐,既是新手入门教材,也是资深从业者的技术进阶手册。
內容簡介:
在数据驱动时代,实体消解技术是打通数据孤岛的核心利器。本书以Python为工具,系统讲解从数据清洗到云端大规模部署的全流程技术:·基础原理:解析实体消解5大步骤(数据标准化、分块、属性比较、匹配分类、聚类),直面姓名模糊、数据缺失、跨源匹配等实战难题;·算法攻坚:详解编辑距离、Jaro-Winkler相似度等文本匹配技术,结合贝叶斯定理、期望最大化算法构建概率匹配模型;·工具实战:基于Splink实现企业级数据消解,通过谷歌云平台扩展至百万级数据集;·前沿拓展:引入隐私增强技术(PSI),平衡数据利用与合规风险。全书配套GitHub代码库,以英国公司注册署、海事署等真实数据演示跨领域(金融风控、供应链管理)场景应用,助力读者构建可复用的数据资产整合方案。
關於作者:
Michael Shearer是HAWK:AI公司的首席解决方案官,该公司致力于帮助金融机构侦测金融犯罪活动。作为汇丰银行前董事总经理,他在2014—2023年间主导开发了一套合规系统。此外,迈克尔还在英国政府部门拥有20年的工作经验,曾担任多个关键的管理和技术角色。
目錄
目录前言1第1章 实体消解入门71.1 什么是实体消解71.2 实体消解的作用81.3 实体消解的主要挑战91.3.1 姓名缺少唯一性91.3.2 命名约定不一致91.3.3 数据获取不一致101.3.4 示例111.3.5 故意模糊处理121.3.6 匹配组合121.3.7 盲目匹配131.4 实体消解过程131.4.1 数据标准化141.4.2 记录分块141.4.3 属性比较141.4.4 匹配分类141.4.5 聚类141.4.6 规范化151.4.7 示例151.5 评估结果161.6 正式开始17第2章 数据标准化192.1 案例192.2 设置环境202.3 获取数据222.3.1 维基百科数据222.3.2 TheyWorkForYou数据242.4 清洗数据262.4.1 清洗维基百科数据262.4.2 清洗TheyWorkForYou数据272.5 比较属性282.6 选区292.7 评估结果332.8 计算样本342.9 总结35第3章 文本匹配363.1 编辑距离匹配363.1.1 Levenshtein距离373.1.2 Jaro相似度383.1.3 Jaro-Winkler相似度393.2 语音匹配413.2.1 Metaphone算法413.2.2 MRA算法413.3 技术比较413.4 案例423.5 全面相似度比较443.6 评估结果473.7 总结48第4章 概率匹配494.1 案例494.2 单一属性匹配概率514.2.1 名字匹配概率514.2.2 姓氏匹配概率524.3 多属性匹配概率534.4 概率模型554.4.1 贝叶斯定理554.4.2 m值564.4.3 u值574.4.4 λ值574.4.5 贝叶斯因子584.4.6 Fellegi-Sunter模型584.4.7 匹配权重594.5 期望最大化算法604.5.1 第一次迭代604.5.2 第二次迭代624.5.3 第三次迭代634.6 Splink入门654.6.1 配置Splink654.6.2 Splink匹配结果684.7 总结71第5章 记录分块725.1 案例725.2 获取数据735.2.1 维基百科数据735.2.2 英国公司注册署数据745.3 数据标准化755.3.1 维基百科数据755.3.2 英国公司注册署数据765.4 记录分块与属性比较765.4.1 使用Splink进行记录分块775.4.2 比较属性785.5 匹配分类825.6 评估结果845.7 总结84第6章 匹配公司856.1 案例856.2 获取数据866.3 数据标准化866.3.1 英国公司注册署数据876.3.2 英国海事及海岸警卫署数据886.4 记录分块与属性比较896.5 匹配分类926.6 评估结果946.7 匹配新实体966.8 总结97第7章 聚类987.1 简单精确匹配聚类997.2 近似匹配聚类1017.3 案例1047.3.1 获取数据1047.3.2 数据标准化1057.4 记录分块与属性比较1057.4.1 数据分析1067.4.2 期望最大化分块规则1067.5 匹配分类与聚类1107.6 簇可视化1127.7 聚类分析1137.8 总结117第8章 使用谷歌云平台进行扩展1198.1 谷歌云设置1208.2 创建Dataproc集群1248.3 配置Dataproc集群1288.4 使用Spark进行实体消解1308.5 评估结果1338.6 整理工作1338.7 总结134第9章 实体消解云服务1359.1 BigQuery简介1359.2 企业知识图谱 API1389.2.1 模式映射1389.2.2 消解作业1409.2.3 处理结果1459.2.4 实体消解Python客户端1479.3 评估结果1499.4 总结150第10章 利用记录关联技术保护隐私15110.1 隐私集合求交简介15110.2 PSI原理15210.3 基于ECDH的PSI协议15410.3.1 布隆过滤器15410.3.2 格伦布编码集15710.4 案例:使用PSI16010.4.1 设置环境16010.4.2 服务器代码16310.4.3 客户端代码16510.4.4 完整的MCA和公司注册署样本示例17010.5 总结172第11章 进一步探讨17311.1 数据问题探讨17311.1.1 非结构化数据问题17311.1.2 数据质量问题17411.1.3 时效性问题17411.2 属性比较17511.2.1 集合匹配17511.2.2 地理编码位置匹配17511.2.3 汇总比较17611.3 后处理17611.4 图形表示17811.5 实时性问题17811.6 评估结果17911.6.1 成对方法18011.6.2 基于簇的方法18011.7 实体消解的未来181
內容試閱
译者序在当今这个信息爆炸的时代,海量数据的涌现为各行各业带来了前所未有的机遇与挑战。如何从纷繁复杂的数据中精准提取出有价值的信息,成为亟待解决的问题。而实体消解技术,正是应对这一问题的关键利器之一。无论是在商业智能领域助力企业精准洞察客户需求、优化供应链管理,还是在学术研究中整合多源异构数据以挖掘新知识,乃至协助政府部门进行公共事务管理、提升社会治理效能,实体消解技术都发挥着重要作用。顾名思义,实体消解就是将不同数据源中指代同一实体的多个记录识别出来并将其合并为统一实体表示的过程。实体消解技术通过一系列复杂的算法和流程,实现数据的精准对接与融合,从而为后续的数据分析、知识发现、业务决策等环节奠定坚实的基础。本书正是对这一重要技术的全面而深入的剖析。从基础概念的阐释,到实际操作的指导,再到前沿技术的探讨,本书涵盖了实体消解的方方面面。书中对每个步骤都进行了细致的讲解,不仅提供了丰富的理论知识,还结合实际案例,展示了如何在具体场景下应用这些技术和方法。本书既有高屋建瓴的理论阐述,又有细致入微的代码示例与案例剖析,相信无论读者是初涉该领域、渴望构建扎实的知识根基的新手,还是经验颇丰、寻求创新思路与技术进阶的专业人士,都能从这本书中觅得所需。衷心期望本书的问世,能够为读者的事业与研究注入新的活力,助力更多读者跨越知识鸿沟,在实体消解乃至更广阔的数据处理天地中自由驰骋,开启数字化智慧之旅。读者在阅读过程中,如果发现问题或错误,欢迎与我联系,我的电子邮箱是seancheney@qq.com。林润前言人们都希望做出更好的决策。无论是为了更好地服务客户,还是为了保障客户的安全,人们都希望做出正确的判断并开展正确的工作。为了能够自信地行动,人们需要了解服务对象及其信息。虽然人们时常有大量数据可以使用,但这些 数据往往是孤立的,难以完整描述个体全貌。实体消解是连接数据、串联数据并揭示全貌的技术。本书是一本实操指南,旨在帮助读者了解实体消解广阔的知识背景,掌握实体消解技术并灵活运用它。 数据匹配看起来很容易,但通过本书,读者将了解到数据匹配并非总是一帆风 顺的。不过不用担心,阅读完全书,读者就能够克服这些挑战,让数据集焕发生机。本书读者本书适合金融服务、制药业或其他大型企业的产品经理、数据分析师或数据科学家阅读。如果你正面临数据孤岛难题、不同数据库中的客户信息存在分歧, 或者你要合并来自不同组织或附属公司的信息,本书也适合你。负责防范金融犯罪、管理声誉及供应链风险的风险管理专家,也能从本书对数据匹配挑战及其解决策略的深入讨论中受益。为什么撰写本书实体消解的挑战无处不在。虽然我们可能不常用这个术语,但实体消解过程每天都在重复发生。在完成本书的几周前,妻子让我帮助她核对银行对账单上的 付款人名单,以确认名单上的人是否都付款了。这正是实体消解的实际应用!创作本书的想法,源于我想要阐释为什么核对名单上的匹配项并不像听起来那么简单,还想展示一些现在可用于高效处理实体消解问题的优秀工具和技术。通过介绍一些真实案例,我希望读者能够自信地对数据集进行匹配,从而更好 地服务并保护客户。非常欢迎读者向我分享读书的心得体会,或是对本书的任何反馈。如果对本书附带的代码有任何疑问,欢迎在 GitHub(https://github. com/mshearer0/HandsOnEntityResolution )上提出。若想讨论实体消解问题,请通过 LinkedIn(https://www.linkedin.com/in/mshearer0)联系我。实体消解既是一门技艺,也是一门科学。不存在适用于所有数据集的通用解决方案,因此开发者需要根据自身需求调整算法,以达成期望结果。希望本书读 者能够相互帮助,找到最佳解决方案,通过分享彼此的经验,让众人受益。本书导览本书旨在提供实体消解的实操指南,因此鼓励读者在逐章学习时动手运行代码。本书的核心原则是通过使用真实的开源数据,展示实体消解中的挑战与解决方案。但是,使用开源数据可能会面临一些挑战,因为开源数据集在发布后可能 会有更新,导致读者的运算结果略有不同。请查看 GitHub页面(https://github.com/mshearer0/HandsOnEntityResolution),以获取及时更新,并访问最新代码。本书各章内容如下:?  第 1 章简要介绍实体消解,解释为什么需要进行实体消解,及实体消解包含的主要步骤。?  第 2 章阐述在尝试匹配记录之前,数据标准化的重要性。?  第 3 章至第 6 章展示如何使用模糊匹配和概率匹配方法,比较数据记录以消解实体。?  第 7 章介绍对于描述同一实体的记录,将其聚类到唯一可识别簇的过程。?  第 8 章和第 9 章展示如何使用云计算服务大规模实施实体消解。?  第 10 章介绍如何利用记录关联技术保护数据所有者隐私。?  第 11 章介绍对实体消解算法设计的进一步思考,并展望实体消解技术的未来发展。建议读者连续阅读第 2 章至第 9 章,因为这些章节会使用相同的数据集逐步构 建出实体消解解决方案。本书假定读者具备 Python 基础知识。如有学习需要,可访问互动教程网站 http://learnpython.org。此外,强烈推荐 Wes McKinney 所著的 Python for Data Analysis一书。对于更有经验的读者,建议学习 pandas、Spark 和 Google Cloud Platform,肯定能有所收获。

 

 

書城介紹  | 合作申請 | 索要書目  | 新手入門 | 聯絡方式  | 幫助中心 | 找書說明  | 送貨方式 | 付款方式 香港用户  | 台灣用户 | 海外用户
megBook.com.hk
Copyright © 2013 - 2025 (香港)大書城有限公司  All Rights Reserved.