《内容理解：技术、算法与实践》 - 孙子荀等 - 机械工业出版社 - 香港大書城

	登入帳戶　 \|　訂單查詢　 \|　購物車/收銀台(0)　\|　在線留言板　 \|　付款方式　 \|　運費計算　 \|　聯絡我們　 \|　幫助中心　\|　加入書簽
		會員登入新用戶登記

HOME

新書上架

暢銷書架

好書推介

2024年度TOP

臺灣用戶

品種：超過100萬種各類書籍/音像和精品，正品正價，放心網購，悭钱省心

服務：香港／台灣／澳門／海外

送貨：速遞／郵局／服務站

新書上架：簡體書繁體書
暢銷書架：簡體書繁體書
好書推介：簡體書繁體書

『簡體書』内容理解：技术、算法与实践

書城自編碼： 3924031
分類：簡體書→大陸圖書→計算機/網絡→人工智能
作者：孙子荀等
國際書號(ISBN)： 9787111735137
出版社：机械工业出版社
出版日期： 2023-10-01

頁數/字數： /
書度/開本： 16开釘裝：平装

售價：HK$ 113.9

我要買件

** 我創建的書架 **
未登入.

新書推薦：

《近世通儒——纪念沈曾植逝世100周年学术研讨会论文集》
售價：HK$ 184.8

《光速声波物理学. 1、2、3 》
售價：HK$ 494.9

《天下之极：世界枢纽观念的古今之变》
售價：HK$ 96.8

《认识现代社会之真相：杨照讲马克斯·韦伯》
售價：HK$ 94.6

《 “义与制不相遗”：蒙文通与近代学界》
售價：HK$ 107.8

《从黑船来航到开罗会议：近代日本外交历程》
售價：HK$ 140.8

《论美国（附赠解读手册）》
售價：HK$ 140.8

《无人机飞行原理与气象环境（第2版）》
售價：HK$ 31.9

建議一齊購買：

HK$ 103.3
《艾博士：深入浅出人工智能》

HK$ 136.9
《模式识别和机器学习基础》

HK$ 125.4
《MLOps工程实践：工具、技术与企业级应用》

HK$ 113.9
《机器学习中的统计思维（Python实现）》

HK$ 228.9
《贝叶斯推理与机器学习》

HK$ 67.9
《机器学习的算法分析和实践》

編輯推薦：

（1）作者背景权威：内容理解领域的资深专家，多位国内外高校博士，技术专家骨干。
（2）团队经验丰富：作者团队在内容理解和生成领域工作了10余年，获得了十几个技术大奖和业务大奖，也在内容领域有丰富的经验。
（3）实践经验：全书以工业界丰富的内容算法成果为支撑，全面讲解了企业在内容理解、内容生成、内容质量3大业务场景中的工程经验和案例。
（4）行业先进成果：不仅有互联网的优秀技术和实践，而且还融合了全球技术界在内容理解与生成领域的先进思想和成果。
（5）大模型多模态：一本书讲透文本、图片、音频、视频等各种模态的理解和生成，掌握大模型时代的关键技术。

內容簡介：

这是一本在AI大模型技术背景下深入讲解内容理解的技术原理、算法实现与业务实践的著作，由腾讯的高级总监和资深内容专家领衔撰写，全面融入了工业界在内容业务方面积累的先进技术和成熟经验。
全书围绕内容理解、内容生成、内容质量3大关键领域展开，从内容产业的发展趋势与挑战到各种技术和算法，从行业的先进的研究成果到各种典型的应用案例，应有尽有。
第一部分内容理解（第1~7章）
首先，详细介绍了内容理解的各个模块，包括文本、图像、语音等单模态内容的理解以及多场景文本、视频等多模态内容的理解，帮助读者全面了解内容理解的核心概念、技术细节和研究进展。接着，讲解了多模态学习在内容理解中的应用、多模态内容理解的理论框架和大规模预训练技术。最后，介绍了两个主流的内容理解框架，并结合一个自研的多模态内容理解框架，阐述了解决内容理解问题的流程和具体方案。
第二部分内容生成（第8~11章）
详细讲解了内容生成的技术细节，结合作者团队在业务实践中探索的应用案例，从图片生成、文本生成、AI素材合成到AI创作，介绍了内容创作的全栈技术，能帮助读者由浅入深地理解内容生成的技术原理与业务实践。
第三部分内容质量（第12~14章）
详细讲解了信息流产品常见的内容质量问题，比如标题党、假新闻、低俗图片等，介绍了如何对这些与内容质量相关的业务场景进行拆解和定义，将抽象的业务场景转化为可以建模的问题。此外，还介绍了作者团队采用的业务建模流程以及业界常用的解决方案和研究进展。

關於作者：

孙子荀
内容理解与生成领域的资深专家，腾讯高级总监和专家研究员，负责腾讯游戏用户增长与内容生态技术相关的工作。 2012年加入腾讯，十多年来一直从事内容理解、内容生成以及数据科学技术的研究和落地工作，带领团队获得十几项公司级业务奖和技术奖。在内容生态增长、创意营销等领域有丰富的落地经验。带领团队从0到1构建了首个内容技术中台；打造了腾讯游戏全域营销科学体系，帮助多个业务实现降本增效。与团队一起在人工智能顶级学术会议上发表了多篇论文和报告，在相关领域拥有几十项发明专利。

Contents 目　录
作者简介
前　　言
第一部分　内容理解
第1章　文本内容理解2
1.1　文本表示2
1.1.1　文本表示的研究背景2
1.1.2　文本表示的方法3
1.2　文本分类9
1.2.1　文本分类的研究背景9
1.2.2　文本分类的方法9
1.3　本章小结17
第2章　图像理解19
2.1　图像分类20
2.1.1　传统图像分类算法20
2.1.2　深度学习图像分类算法23
2.2　图像检测25
2.2.1　图像匹配算法26
2.2.2　基于OpenCV的模板匹配实现27
2.2.3　目标检测算法28
2.3　实际应用：通用元素检测框架30
2.4　本章小结31
第3章　语音理解32
3.1　语音表征32
3.1.1　基于传统方法的语音表征33
3.1.2　基于深度学习的语音表征34
3.2　基于深度学习的音乐分类34
3.2.1　基于CNN的音乐分类35
3.2.2　基于RNN的音乐分类38
3.2.3　基于领域知识的CNN38
3.2.4　基于注意力机制的后端模块
　　　算法41
3.3　本章小结43
第4章　场景文字检测与识别44
4.1　场景文字的研究方向44
4.1.1　研究问题44
4.1.2　研究难点45
4.1.3　未来趋势45
4.2　场景文本算法的现状46
4.2.1　基于传统机器学习的文本检测46
4.2.2　基于传统机器学习的文本识别46
4.2.3　基于深度学习的文本检测47
4.2.4　基于深度学习的文本识别52
4.2.5　基于深度学习的端到端系统53
4.3　场景文本算法辅助技术55
4.3.1　不规则文本识别问题55
4.3.2　文本图像合成技术56
4.3.3　半监督技术57
4.4　数据集和评估标准58
4.4.1　基准数据集58
4.4.2　文本检测评估标准60
4.4.3　文本识别评估标准61
4.5　文本检测和识别的应用、现状
　　与未来61
4.5.1　应用61
4.5.2　现状62
4.5.3　挑战与未来趋势62
4.6　本章小结64
第5章　视频理解65
5.1　视频表征66
5.1.1　研究目标与意义66
5.1.2　研究进展67
5.2　视频动作识别71
5.2.1　研究目标与意义71
5.2.2　研究难点71
5.2.3　研究进展71
5.3　视频时序动作定位74
5.3.1　研究目标与意义74
5.3.2　研究难点74
5.3.3　研究进展75
5.4　视频结构化分析79
5.4.1　研究目标与意义80
5.4.2　研究难点80
5.4.3　基于视频结构化的数据集80
5.4.4　视频结构的划分方法81
5.4.5　研究进展84
5.5　本章小结89
第6章　多模态学习与内容理解91
6.1　多模态内容理解的研究方向91
6.1.1　研究问题91
6.1.2　研究意义与挑战92
6.1.3　研究方向与应用93
6.2　多模态表征94
6.2.1　因果表征94
6.2.2　联合表征98
6.3　多模态内容理解框架99
6.3.1　模态间推理99
6.3.2　模态间协同101
6.3.3　模态间推理：零样本图像
　　　分类103
6.3.4　模态间协同：虚假新闻识别105
6.4　大规模预训练技术108
6.4.1　文本预训练108
6.4.2　图像预训练110
6.4.3　音频预训练111
6.4.4　多模态预训练112
6.5　本章小结114
第7章　内容理解框架115
7.1　常见的内容理解框架115
7.1.1　Tensor2Tensor115
7.1.2　OmniNet 120
7.2　自研多模态内容理解框架121
7.2.1　框架设计背景121
7.2.2　contentAI框架介绍125
7.2.3　高度配置化125
7.2.4　高度组件化127
7.2.5　开发者模式与用户模式130
7.2.6　计算式网络搭建131
7.2.7　计算图网络搭建 132
7.2.8　自动化数据集构建 133
7.2.9　能力优化133
7.2.10　快速服务化134
7.2.11　内容理解能力135
7.2.12　代码编写范例136
7.3　本章小结141
第二部分　内容生成
第8章　图片生成144
8.1　基于GAN的图片生成144
8.1.1　生成对抗网络144
8.1.2　条件图片生成146
8.1.3　文本转图片147
8.1.4　图片迁移147
8.1.5　高分辨率图片生成149
8.2　基于扩散模型的图片生成151
8.2.1　扩散模型152
8.2.2　扩散模型生成图片153
8.3　图片设计155
8.3.1　智能裁剪155
8.3.2　智能布局156
8.4　本章小结157
第9章　文本生成158
9.1　文本生成的背景知识158
9.1.1　语言模型158
9.1.2　CFG文法159
9.1.3　Encoder-Decoder框架160
9.1.4　文本生成质量量化 161
9.2　文本生成算法162
9.2.1　基于统计的文本生成模型162
9.2.2　基于神经网络的文本生成技术164
9.3　本章小结172
第10章　AI素材合成173
10.1　AI人脸属性编辑173
10.1.1　研究目标与意义173
10.1.2　研究难点175
10.1.3　研究进展176
10.2　AI语音合成181
10.2.1　研究目标与意义181
10.2.2　基本的语音合成系统简介182
10.2.3　端到端的语音合成系统183
10.2.4　基于深度学习的算法介绍185
10.3　AI虚拟人技术195
10.3.1　研究目标与意义195
10.3.2　二维多目标人体姿态估计197
10.3.3　二维-三维人体姿态转换203
10.4　AI表情包合成205
10.4.1　表情包特性206
10.4.2　表情包自动合成的意义及
　　　挑战207
10.4.3　表情包合成算法208
10.4.4　表情包合成应用212
10.5　本章小结213
第11章　视频编辑214
11.1　结构化数据视频编辑215
11.1.1　基于模板的电视报道视频编辑215
11.1.2　基于剪辑元素属性约束的
　　　视频编辑216
11.1.3　视频特效合成系统实践217
11.2　文本驱动视频编辑222
11.2.1　基于主题文本编辑的视频
　　　蒙太奇222
11.2.2　基于解说文本的旅游视频
　　　编辑224
11.3　音乐驱动视频编辑225
11.3.1　音乐驱动视频蒙太奇225
11.3.2　根据音乐生成视觉节奏227
11.3.3　基于音乐合成视觉叙事
　　　镜头230
11.4　本章小结232
第三部分　内容质量
第12章　标题党234
12.1　模型构建235
12.1.1　业务定义235
12.1.2　基于标题建模236
12.1.3　基于文章整体内容建模 238
12.2　标题党研究方向241
12.2.1　数据方面的研究241
12.2.2　特征构造方面的研究241
12.2.3　模型方面的研究241
12.3　数据集242
12.4　相关论文介绍243
12.4.1　特征构造243
12.4.2　深度学习245
12.5　本章小结247
第13章　假新闻248
13.1　基本方法248
13.1.1　基于内容真实性248
13.1.2　基于内容风格249
13.1.3　基于传播模式251
13.1.4　基于传播源特征253
13.2　未来研究方向253
13.3　数据集254
13.4　相关论文介绍254
13.5　本章小结271
第14章　图文低俗识别272
14.1　研究背景与问题定义272
14.1.1　研究背景272
14.1.2　问题定义273
14.2　业界常用产品274
14.3　主要技术手段275
14.3.1　关键词275
14.3.2　模型276
14.3.3　匹配277
14.3.4　举报279
14.3.5　用户行为279
14.3.6　多模态279
14.4　业务案例279
14.5　本章小结282

內容試閱：

Preface　前　言
为什么要写这本书
随着互联网的高速发展，内容产业规模迅猛增长，从图文到短视频，内容形态不断丰富，市场孵化出一大批优秀的内容产品。作为行业发展的见证者，我所在的团队一直致力于通过AI技术推动内容产业的发展。
在推荐分发和内容审核等场景中，内容理解是核心竞争力。我们对海量信息进行结构化处理、打标签、语义理解，在很多场景下，AI对内容的处理能力达到了人类的水平。我们围绕短视频剪辑的各种细分工具，结合人工智能技术合成创作者需要的素材，并生成有特色的创意模板。这也是当前技术领域的研究热点，我们的研究成果全面满足了内容制作者的需求。
本书以团队丰富的算法研究成果为支撑，详细总结和介绍了内容算法的原理与扎实有效的应用案例。鉴于目前市面上内容算法相关的书不多，我们将腾讯在内容业务方面的实践经验撰写成书，供更多从业者参考、交流和学习。
读者对象
内容算法领域的研发人员
人工智能相关的从业者
内容相关的产品和运营人员
高等院校计算机相关专业学生
本书特色
本书结合腾讯游戏内容理解和创作的业务场景，深度解析内容算法原理，围绕内容理解、内容生成、内容质量等业务场景，深入介绍工业界在算法方面的实践和思考。
如何阅读本书
本书分为三部分。
第一部分（第1～7章）介绍内容理解，内容从文本、图像、语音单一模态的理解到多模态理解，从常见的文本理解到复杂的视频解析，帮助读者全面了解其中的技术细节和研究进展。
第二部分（第8～11章）介绍内容生成，着重讲解内容生成的技术细节，从图片生成、文本生成、AI素材合成到视频编辑，系统介绍了内容创作相关的技术，帮助读者由浅入深地理解技术原理与业务实践。
第三部分（第12～14章）介绍内容质量，详细介绍了信息流产品常见的内容质量问题，讲解了针对这些内容质量问题的业务场景应如何进行拆解和定义。
通过对本书内容的学习，读者可以全面了解内容算法的原理、业务建模流程以及业界常用的解决方案和研究进展。
勘误和支持
由于作者的水平有限，书中难免会出现一些错误或者不准确的地方，恳请读者批评指正。如果你遇到任何问题，可发送邮件至邮箱qizailiu@outlook.com，我们将尽量为你提供满意的解答。如果你有宝贵意见，也欢迎发邮件联系我们，期待能够得到大家的真挚反馈。
致谢
感谢参与写作本书的每一个人，大家一起努力将团队的工作经验总结成书。
感谢部门领导陈冬对工作的支持。
谨以此书献给对内容相关算法有兴趣的读者们！
孙子荀

書城介紹　 \|　合作申請　\|　索要書目　 \|　新手入門　\|　聯絡方式　 \|　幫助中心　\|　找書說明　 \|　送貨方式　\|　付款方式	香港用户　 \|　台灣用户　\|　海外用户

	megBook.com.hk
Copyright © 2013 - 2025 （香港）大書城有限公司　 All Rights Reserved.