新書推薦:
《
维京人新史:从斯堪的纳维亚到丝绸之路
》
售價:HK$
97.9
《
孩子·挑战(全新图解版)
》
售價:HK$
85.8
《
大明1644(全二册)
》
售價:HK$
105.6
《
爱的流动
》
售價:HK$
64.9
《
帝国之翼:胡林翼的官场与战场
》
售價:HK$
85.8
《
史记全本注译(布面精装,全套9册) 附赠“朕来也”文创扑克牌1副!
》
售價:HK$
715.0
《
ROS 2智能机器人开发实践
》
售價:HK$
140.8
《
心理韧性:你总是能整装待发
》
售價:HK$
65.8
|
內容簡介: |
本书基于模式识别和信息熵理论,全面、系统和深入地分析介绍了各种汉字、多文种文字识别的理论和方法,以及解决复杂多变的多文种文字和文档识别中关键问题的有效算法和具体实践。本书可以作为相关专业研究生的参考书,也可以供从事模式识别、文字和文档识别等计算机信息处理研究的科研人员和从事相关产品开发的工程技术人员阅读参考。
|
目錄:
|
目录第1章绪论1.1引言1.2文字和汉字1.2.1文字的代码表示1.2.2汉字的字体字形1.2.3汉字的特点 1.2.4中文信息处理1.3文字识别和汉字识别1.4文字识别研究历程1.5文字识别分类1.5.1按照不同文种文字和文档的识别技术分类1.5.2按照获取图像方式和识别对象不同分类1.5.3单个字符识别和文档篇章识别1.6文字识别与笔迹鉴别1.7汉字识别的基本方法基于视觉感知的汉字识别方法1.8关于本书参考文献第2章模式识别和模式识别信息熵理论2.1引言: 模式与模式识别2.2基于贝叶斯统计决策的模式识别2.3模式识别统一信息熵理论2.3.1特征和类别及其相关信息熵2.3.2后验熵:最优贝叶斯分类器误识率的上限2.3.3模式识别的学习与识别信息过程2.3.4互信息:决定模式识别性能的鉴别熵2.4正态分布条件下的模式识别信息熵系统2.5最大互信息鉴别分析(互信息鉴别子空间模式识别) 2.5.1最大互信息子空间线性鉴别分析方法2.5.2最大互信息线性鉴别分析与线性鉴别分析LDA2.6特征选择的信息熵准则2.6.1基于错误概率的类别可分性准则2.6.2基于有效互信息的类别可分性准则2.7从信息熵分析看提高识别性能的途径2.8汉字集合和汉字文本的信息熵2.8.1汉字集合的信息熵2.8.2汉字文本的信息熵和汉字的极限熵2.9本章小结参考文献第3章汉字识别的特征提取3.1引言3.2汉字字符图像规一化预处理3.2.1线性规一化3.2.2非线性规一化3.2.3基于整体密度均衡的非线性规一化3.3汉字识别中的特征抽取3.3.1结构特征3.3.2统计特征3.4汉字识别特征提取研究的发展历程3.4.1基于图像变换的印刷汉字识别特征和系统 3.4.2基于形态学汉字结构分析的两级印刷汉字识别特征和系统3.4.3汉字笔画密度微结构全局特征及多字体汉字识别系统3.4.4基于汉字笔画方向网格特征的鲁棒汉字识别系统3.5笔画方向线素特征3.5.1方向线素特征的形成方法3.5.2网格化方向线素特征3.5.3对原模糊分块方法的改进低通采样方向线素特征3.5.4实验和结果3.6基于Gabor滤波器的高性能汉字识别方向特征3.6.1Gabor变换理论分析3.6.2适用于汉字识别的Gabor滤波器组设计及实验验证3.6.3对Gabor滤波器组输出的非线性变换3.6.4分块特征的抽取3.6.5实验及结果3.7汉字识别梯度方向特征抽取方法3.7.1梯度方向特征3.7.2梯度方向特征的快速算法3.8不同笔画方向特征的识别性能实验比较3.9本章小结参考文献第4章特征的鉴别分析和分布整形4.1引言4.2线性鉴别分析4.2.1优化准则4.2.2变换形式和最优解4.2.3变换的分解形式4.2.4启发式讨论4.2.5实验与结果4.2.6小结 4.3正则化线性鉴别分析4.3.1小样本带来的问题4.3.2利用正则化估计协方差阵4.3.3实验结果4.4异方差鉴别分析4.4.1基于极大似然估计的异方差线性鉴别分析4.4.2基于Chernoff准则的异方差线性鉴别分析4.4.3基于Mahalanobis准则的异方差线性鉴别分析4.4.4实验结果4.4.5小结4.5特征统计分布整形变换4.5.1特征分布的整形4.5.2正态性检验4.5.3BoxCox变换4.5.4方向线素及梯度特征的整形4.5.5实验与结果4.6本章小结参考文献第5章模式识别分类器设计统计模式分类方法5.1引言5.2贝叶斯判决理论5.3正态分布下的贝叶斯分类器5.3.1正态分类模型5.3.2最小距离分类器MDC5.3.3线性距离分类器LDC 5.3.4二次鉴别函数分类器QDF5.3.5二次鉴别函数5.3.6QDF误差分析5.4改进二次鉴别函数分类器MQDF5.4.1修正二次鉴别分类MQDF5.4.2QDF修正形式的贝叶斯估计推导5.4.3实验与结果5.5系统实现与应用5.5.1非限定脱机手写汉字识别系统5.5.2多字体印刷中、日、韩文识别系统5.6分类器的置信度分析5.6.1分类器的置信度和广义置信度5.6.2基于距离的分类器的广义置信度估计5.6.3多层前向神经网络分类器广义置信度估计5.6.4从广义置信度求置信度的方法5.6.5使用ACT估计后验概率5.6.6置信度分析在字符识别中的应用5.6.7小结5.7分类器集成5.7.1集成的3个层次5.7.2基于线性回归的多分类器集成5.7.3利用线性回归提高后验概率估计的准确性5.7.4后验概率的估计误差与误识率的关系5.7.5实验结果5.7.6小结5.8本章小结参考文献第6章无约束手写汉字识别分类器鉴别学习6.1引言6.2基于最小错误率的鉴别学习6.2.1最小错误率学习6.2.2基于MCE的多模板距离分类器参数鉴别学习6.2.3基于MCE的MQDF分类器参数鉴别学习6.2.4基于MCE的正交混合高斯模型的鉴别学习6.3基于启发式的鉴别学习方法6.3.1矫正学习6.3.2镜像学习方法6.3.3样本重要性加权学习方法6.4本章小结参考文献第7章联机手写汉字识别7.1引言7.1.1联机手写汉字识别方法回顾7.2描述结构的统计模型SSM7.2.1基元间关系的描述7.2.2结构统计模型SSM的定义及概率分析7.2.3SSM应用于联机手写汉字识别7.2.4实验与分析7.2.5小结7.3路径受控HMM和时空统一模型7.3.1路径受控HMM(PCHMM)7.3.2PCHMM在联机手写汉字识别中的应用7.3.3联机手写汉字识别的时空统一模型STUM7.3.4实验与分析7.3.5小结7.4基于全局模式分析的统计结构特征7.4.1联机汉字笔迹的结构分析7.4.2联机手写汉字分类特征的分析与提取7.4.3小结7.5高性能联机手写汉字识别系统及其嵌入式系统7.5.1联机手写汉字识别系统7.5.2嵌入式联机手写识别系统7.6本章小结参考文献第8章利用上下文信息的汉字识别后处理8.1概述8.2汉字识别后处理模型8.2.1汉字文本识别的整体模型8.2.2利用多层语言知识的汉字识别整体模型8.2.3整体模型的全局优化8.2.4影响后处理性能的要素分析8.3统计语言模型8.3.1ngram模型的基本理论8.3.2基于字的语言模型8.3.3基于词的语言模型8.4候选集的有效性8.4.1候选集大小分析8.4.2混淆矩阵获取8.4.3扩充候选字集8.4.4词条近似匹配算法8.5文本识别后处理的实现8.5.1字bigram模型的上下文处理8.5.2字trigram模型的上下文处理8.5.3词bigram模型的上下文处理8.5.4字、词相结合的上下文处理8.4.5利用上下文信息的汉字识别实验系统8.6实验结果与分析8.6.1实验数据说明8.6.2语言模型的影响8.6.3候选字集的影响8.6.4文本识别混合后处理系统的影响8.7本章小结参考文献第9章脱机手写文档识别方法9.1引言9.2文本行识别研究概况9.3基于过切分的脱机手写中文文本行识别方法9.3.1脱机手写中文文本行识别方法9.3.2基于分段的文本行识别搜索方法9.3.3文本行切分识别中的语言模型自适应9.3.4脱机手写中文文本识别系统9.4基于HMM的无切分民族文字文档识别方法9.4.1无切分识别方法的主要思想9.4.2无切分文档识别方法中的特征提取9.4.3无切分文档识别方法中的模型训练9.4.4无切分文档识别方法中的模型优化9.4.5无切分文档识别方法中的解码识别9.4.6无切分维文文档识别研究的相关实验9.4.7小结9.5本章小结参考文献第10章文档版面自动分析和理解10.1版面处理的概念10.2版面分析研究的历史和现状10.2.1版面分析研究的分类10.2.2版面分析工作的发展10.2.3版面分析的困难10.3基于多层次基元的版面分析模型10.3.1多层次可信度的定义10.3.2多层次可信度指导下的自底向上版面分析算法10.3.3连通域层次10.3.4行层次10.3.5区域层次10.3.6页面层次10.3.7实验结果10.4版面理解和重构10.4.1版面理解和重构的需求10.4.2文档结构模型10.4.3版面理解10.4.4版面重构10.4.5原文重现的电子出版物制作系统10.5本章小结 参考文献第11章蒙藏维多文种识别11.1引言11.1.1蒙藏维文识别11.1.2民族文字识别的现状11.1.3藏文及其识别11.1.4维吾尔文及其识别11.1.5蒙古文及其识别11.2蒙藏维文识别的基本策略11.2.1基本识别单元选择11.2.2基本框架和关键技术11.3多文种民族文字识别中的字符规一化11.3.1基于基线分块的民族字符规一化策略11.3.2规一化点阵大小选择11.3.3位置规一化11.3.4基于三次B样条函数的字符图像插值11.3.5笔画宽度调整11.4民族文字识别中的特征提取与特征变换11.4.1改进型方向线素特征11.4.2基于视觉特性的方向特征11.4.3基于线性鉴别分析的特征变换11.4.4实验结果11.5民族文字识别中的级联分类器设计11.5.1预分类11.5.2基于鉴别学习MQDF的主分类器11.5.3辅助分类11.5.4实验结果11.6藏文文本切分和藏文识别后处理11.6.1藏文文本切分11.6.2拼写规则与统计方法相结合的藏文识别后处理11.7多民族语言文字识别系统的实现THOCR统一平台民族文字识别系统11.7.1统一平台多民族文字识别系统特点11.7.2维汉英混排民族文字的识别11.7.3蒙藏维多文种统一平台识别系统性能11.7.4蒙藏维文档识别的跨文种翻译理解11.8本章小结参考文献附录A常用缩略语表附录B文字识别相关研究成果附录C文字识别相关成果主要奖励附录D已授权文字识别相关发明专利附录E文字识别相关的博士论文附录F本书中算法研究相关数据库索引
|
內容試閱:
|
文字是人类信息最重要的载体和最集中的表象,记载了几千年人类的文明和历史,对五千年中华文明的传承和发展起着极其关键的作用。当今人类社会进入快速计算机网络信息化的时代,信息的全球化和大数据资源的获取,首先要求解决和实现各类信息的数字化,特别是文字和文档信息的计算机数字化。计算机信息化,就是要求计算机也能像人一样识图认字:使计算机具有对图像或文字表象的自动识别的能力。也就是说,文字和文档识别信息化也是人工智能和计算机视觉需要解决的重要问题。20世纪60年代,国际上就十分重视对文字识别的研究。我国汉字数量巨大、结构复杂,难以输入计算机,这成为汉字信息化的拦路虎,因此,汉字识别及海量文档的计算机数字化研究极为紧迫,并具有特殊的历史意义。作者所在的清华大学智能图文信息处理研究室从20世纪80年代就开始了汉字等多文种文字和文档识别信息化的研究和探索,数十位师生持续卅余年,齐心奋力,在文字识别的理论和方法研讨上、在大规模印刷、联机和脱机手写汉字识别、中日韩、蒙藏维哈柯阿民族文字文档识别的研究上取得领先的研究成果,并将研究成果在世界范围推广应用。这些经历和成果成为本书撰写的直接动因。《文字识别:原理、方法和实践》一书围绕模式识别和文档信息化而展开。基于模式识别和信息熵理论分析,对文字和文档识别的理论和方法以及关键问题进行了较为深入、系统的分析和研究,并介绍了多种文字和文档识别方法和系统。全书包括11章,各章内容如下: 第1章绪论介绍文字的基本属性和特点;第2章模式识别和模式识别信息熵理论,揭示模式识别的核心互信息,汉字和汉字文本的信息熵;第3章介绍汉字识别的特征提取和优良的汉字识别特征;第4章介绍特征的鉴别分析、维数压缩和特征高斯分布整形;第5章介绍最优贝叶斯分类器和MQDF设计;以上章节主要介绍文字识别基本理论。第6章介绍脱机手写汉字识别的鉴别学习方法;第7章介绍基于时空统一模型的结构联机汉字识别方法,以及基于结构特征的统计联机手写汉字识别系统; 第8章介绍利用上下文语言信息进行汉字文本识别后处理的理论方法;第9章介绍基于过切分的文本行识别及基于HMM的无切分文档识别方法;第10章介绍复杂文档版面的自动分析、理解和重构,及文档自动识别和重构方法;第11章介绍蒙藏维多文种文字文档识别的策略、理论和方法,为民\|汉跨文种文档识别理解打下基础。本书有选择性地针对文字和文档识别中必须解决的诸多重要问题,从单字、联机、多变脱机汉字识别、鉴别学习,到复杂版面、连笔书写、上下文相关文档识别,以及多文种民族文字识别,力图较完整地,从理论、方法和实践进行深入分析和讨论。全书内容主要源自我们研究工作的总结,大部分章节源于研究生的论文,包括张睿、刘海龙、张嘉勇、林晓帆、征荆、陈彦、王学文、王言伟、李元祥、姜志威、陈明、王华等同学的博士论文。丁晓青负责全书的编撰,王言伟还做了大量文档编辑工作。希望读者能够对文字和文档识别的理论、方法和实践有较为全面的认知和了解,并从中获得有益的启发。最后需要说明的是,本书没有也不可能完全包括当前在此领域内最新的研究成果和发展。对于读者,本书能够起到抛砖引玉的目的,我们就十分欣慰了。本书的内容主要源自研究组对文字和文档识别理论和方法的研究和探索,特别是汉字识别研究开创者之一,已故的吴佑寿院士,他的一贯支持,为汉字识别研究的成功发挥了重要作用;刘长松、彭良瑞进行了长期的工作,为本书和研究成果的产品化,作出突出贡献;以及集数十位研究生的不懈努力和研究成果,除上面已经提及的参与者外,还包括:朱夏宁、董宏、黄晓非、李彬、徐宁、郭繁夏、苟大银、赵明生、郭宏、刘今晖、陈友斌、方驰、靳简明、陈力、鲁湛、陈彦、李闯、王贤良、文迪、何峰、姚正斌、李昕、蒋焰、付强等。在此一并表示衷心的感谢!
第1章绪论文字识别: 原理、方法和实践第1章绪论1.1引言人类社会已进入了信息时代,尤为重要的标志之一是互联网的发展已经深入人们的生活,从宽度、广度和深度方方面面改变了和改变着人们的生活方式,也改变了世界。信息化使得信息的获取、传输、交换和使用成为影响社会发展的重要因素,信息事业的发展极大地影响了国家的发达和民族的兴旺,也因此得到世界各国的极大关注。在计算机信息化迅速发展的过程中,信息的电子化处理已成为一种不可逆转的趋势,需要解决如何把大量的已产生或将产生的印刷或手写的海量文档信息高效地输入计算机这样的问题,即使在未来,这也是必不可少的一步。将电子化文档输出为纸质文档,激光照排技术带来了对历史上铅与火排版技术的革命,使信息化得到重要发展。但反之,要将无处不在、无时不有的介质上的印刷或手书文档,自动变成计算机可以阅读(查询和检索等)的电子文档,却是十分重要,但却相当难以实现的。虽然可以采用人工键入的方法,但完全无法满足信息化时代对高速、大数据和大容量的需求。如何满足全球信息化对于文档数字化高速、大数据、大容量的急迫需求,利用计算机模式识别技术进行文字和文档的自动识别,实现形形色色的文档的自动电子化,为计算机信息化发展打下坚实的基础是我们研究工作的目的,也是本书写作的动因。《文字识别:原理、方法和实践》一书源于自20世纪80年代开始作者对汉字识别的研究和探索,以及30余年持续的研发和产业化工作,因此有必要对这些研究工作加以总结和汇总。《文字识别:原理、方法和实践》的写作基本上沿着模式识别与文字和文档的信息化这两条线索展开。第1条线索是模式识别,是本书的理论依据。由于文字识别是最典型的,也是目前最有成效的模式识别技术,因此我们有必要首先介绍模式识别以及解决模式识别问题的统计模式识别的基本理论和方法,从提出模式识别信息熵理论开始,包括模式识别特征提取、特征选择和压缩、分类器设计、上下文相关识别方法等基本问题的研究探讨。第2条线索是文字和文档的信息化,这是本书的中心内容。文字是信息的最集中表现,汉字记载了5000余年中国的历史和现代文明的发展。尤其是在计算机信息化时代,文字信息化是信息化时代的基础问题也是关键的问题,特别是困难的文档信息的计算机自动输入问题。在西方文字信息化已取得较完善发展的20世纪6070年代,数量巨大、结构复杂的汉字信息化却遇到汉字计算机输入的特殊困难,成为汉字计算机信息化的拦路虎。完善解决多种文字和文档自动识别计算机输入等问题,是本书研讨的主要内容,包括利用统计模式识别方法,对多文种文档识别的众多关键问题进行较为详细的研究和探讨,等等。本书介绍了文字和文档识别的理论、方法和实践应用。根据模仿人类视觉模型,提出有别于结构分析的基于文字图像的统计模式识别方法,有效突破了汉字输入计算机对信息化的壁垒,取得了文字识别令人瞩目的进展。从模式识别信息熵的分析说明了统计模式识别方法的理论基础,分析了从文字图像中提取识别特征的方法,以及文字识别中分类器的学习和设计方法;提出汉字的综合识别研究,以及文本识别必须解决的版面分析、文字切分和利用上下文识别后处理等重要问题,最后,总结了文字识别研究的重要进展情况并对未来工作加以展望。1.2文字和汉字文字是人类社会文明的基石,是人类信息最重要的载体,文字信息是信息最集中的表现,是人类信息传承、交换、记载的依据。应当说,人类文明源于文字的出现,人类文明的发展更离不开文字。在信息化时代的今天,尤其是在互联网全球化之时,文字信息数字化对于人类文明发展更具特殊的意义。这种无所不在和无处不有的海量大数据文字信息的数字化要求,注定了文字识别的不可或缺及其在世界范围内广泛的应用需求。文字是语言的符号表示,世界上使用的文字基本上可以分为以下几种:拉丁字母、基里尔字母、阿拉伯字母、印度字母、汉字系统及其他(韩语、蒙古语、希伯来语等)文字等。汉字是世界上最古老的三大文字系统之一。其他如古埃及的圣书字、两河流域苏美尔人的楔形文字已经失传,仅有唯一的中国的汉字沿用至今。汉字,是中国人创造的意音文字书写系统,也是当今世界上唯一仍被广泛采用的意音文字和独源文字,推估历史可追溯至约4000年前的夏商时期。汉字主要用于书面记录汉语(因而又可称为中文),一个字对应汉语的一个音节和一个语素;也用于记录日语、朝鲜语(韩语)和古代越南语等东亚、东南亚多种语言,文字性质与中文不尽相同。秦始皇统一中国后,统一了中国的文字。书同文的历史从此开始。文字的统一有力地促进了不同民族间的文化传播,对中国的统一以及东亚各国的文化交流发挥了重要作用,为世界文字史所罕见。汉字的特点有:字根组字(以有意义的869个声母及265个形母的象形字为字根组成各种汉字)、表意、书同文、兼容并蓄等。以基本的象形指事字为基础,发展了形声、会意的组字法,以组合方式,细化大量的字出来,使得文书上的记载越来越精密,到今天一直成为造字的主力。汉字由一个或以上的字根以二维方式(欧语系是一维文字)在特定的空间、配置在一个正方块内而组成,因此有方块字的别称。汉字是以意念的表达需要,组合所需字根部件于一个方块中,合成千千万万的字。每一个汉字或字根,由横、竖、撇、捺、拐、点等基本笔画构建而成,笔画数目从最少一个笔画到36个笔画之多,可见汉字笔画结构的复杂程度变化之大。而汉字的构造分为单字、部件、笔画和笔段4个层次。单个汉字是一个由笔画构成,结构完整、具有意义和读音的二维图形,是形、音、义的统一体。我们读书认字,就是根据字形而知其音、识其义。用计算机自动识别汉字也是这个意思。从语义表达的层次,有字、词、短语、句和篇章之分。1.2.1文字的代码表示为解决文字和汉字信息的相互正确交换、存储、传输以及共享,作为文字信息的计算机处理的基础,国际上和我们国家都陆续出台和制定了一系列文字和汉字的字符集与标准代码,即对某一个符号或汉字的内涵所赋予的代码表示。文字的机内编码标准是重要的国际和国家的信息化标准。美国在20世纪60年代就已发展和制定了英文的字元集和交换码,以及美国的国家标准ASCII编码(Standard Code for Information Interchange),对每一个字符或符号用一个字节编码,并进一步演变为世界性的电脑字元编码标准ISO 646和Unicode。由于全球信息化发展的要求,1990年国际标准化组织ISOInternational Organization for Standardization颁布了国际语言文字统一编码标准ISO 10646简称UCS4,是4字节的字符编码标准,包括世界主要语言文字的统一编码,其已发表的标准包括有70205个汉字。我国汉字的国标码(《中华人民共和国国家字符标准》,简称GB码)机内编码国家标准有: 1980年发布的GB 2312,它规定了6763个简体汉字的编码,其中包括3755个一级汉字,3008个二级汉字。一级汉字的使用频度达到99.99%。1993年发布的GB 13000,又称为GBK标准,它规定了包括20902个简繁体汉字和韩文、日文在内的CJK字符编码,以及藏、维、蒙等民族文字。2000年发布的GB 18030,它规定了包括GB 13000字符在内的以及扩展的6582个古汉字,总计有27484个汉字编码;最近还将扩展4万余字,总数达到接近7万余字。汉字编码还包括: Big 5码,收录13053个汉字,包括在台湾和香港使用的繁体汉字。 Unicode,简称UCS2,是国外一些计算机厂商提出并推广的一种可容纳世界各国语言文字的统一编码体系,每字符2字节。汉字字符集包括2万余汉字。我们可以看到,具有成千上万巨大字符集是汉字有别于其他文字的突出特点。1.2.2汉字的字体字形远古时代的汉字是一种象形文字,是模仿事物形状而刻画的图案。殷商时代的甲骨文和金文虽仍保留若干象形图案,但已包含一些表意图形;结构上也由独体字发展而成合体字,并出现很多形声字。春秋战国时通用的文字是大篆和小篆,秦代因奏事繁多,篆书难成,隶人(指胥吏)佐书,曰隶书。篆书笔画圆转,隶书笔画方折,便于书写。使用隶书,基本上改变了原有汉字的体形,奠定了楷书的基础。汉初为使汉字书写更为方便,出现了草隶,及至草书和行书。草书笔画潦草,往往难以辨认,取而代之的是楷书。由于楷书形状方正,笔画平直,又名正书或正楷,魏晋以后楷书成为汉字的正宗,一直到现在,仍然是汉字的楷模。汉字是象形文字,早期的汉字图形并不都是方形的,楷书成为正宗之后,汉字才成为名副其实的方块字。尤其是在印刷体汉字出现之后,每个汉字的大小相同,长宽相等,成为汉字的重要特征之一。如图1.1所示,汉字的基本字体包括:篆、隶、楷、行、草。图中名称以绿色标示的,是历史发展的字体,表示了汉字字形的历史发展过程;以红色标示的,则是书法或美术设计上的字形。图中还包括书法和印刷使用的美术字体,前者如欧体、颜体,后者如宋体、黑体。而简体汉字出现在楷书、行书之后,本无所谓的简化隶书、草书,图中所列\[隶体\],仅为模仿隶书风格借书法美术而建模写出来的简化汉字而已。图1.1汉字字体一览表(见彩插)印刷术发明之后,产生了便于印刷的宋体字,结构方正,笔画横细竖粗,便于刻字,又易于活字排版。元、明两代出现的元体和明体字基本上与宋体字相同,统称为宋体。20世纪初出现仿宋体,其结构与宋体相同,只是横竖粗细基本相同,以后又有笔画粗而黑的黑体字出现。近几十年来,宋体、黑体、仿宋体和楷体,已成为我国印刷品汉字的主要字体,近年来为排版美观等需求,还发展了其多种变体。由于计算机的推广使用,计算机生成了多种字体且其变形层出不穷,其目的是使字形更美观,但其字形基本上是围绕着基本字体而变化的。然而变形字体的层出不穷,也为汉字的识别带来一定的困难。汉字中宋、仿、黑、楷字体等变形字体图形多达199种,部分示例如图1.2所示。图1.2宋、仿、黑、楷字体图形汉字字形分为繁体和简体,具有不同的编码,相当于不同的汉字。汉字的大小尺寸变化也是汉字重要的形状特征之一。印刷体汉字的大小通常用不同的字号表示:字形从小到大发生变化,从最小号字到特大号字顺序为七号汉字、小六号、六号、小五号、五号、小四号、四号、三号、小二号、二号、一号、小初、初、小特、特直到特大号汉字。从最小的七号汉字到最大的特大号汉字,字形大小变化了近10倍,以适应不同排版和阅读的需要。一般在文字识别中,对于字号的变化,经过对字符图像大小尺寸的规一化,即可基本消除字号变化对字符识别的影响。1.2.3汉字的特点 汉字的首要特点是数量巨大,编码为GBS 2312的简体一级汉字有3755个,二级汉字有3008个;一级和二级简体汉字总计为6763个;繁体汉字以Big 5码收录的有13053个。如果扩大汉字编码和应用的范围,GB 18030全部汉字数量已经达到4万~7万字,是世界上具有最大字符集数量的文字。显然,巨大数量的汉字字符集给汉字识别带来的困难也是巨大的,使汉字识别成为超多类模式识别的困难问题。近来往往会出现简繁体汉字共用或简繁体汉字混用的情况,从汉字识别的角度看,这相当于增加了汉字识别的字符类别数,更增加了汉字识别的困难。汉字的另一个重要特点是,汉字是由复杂的笔画结构构成的,因此,复杂的笔画结构是汉字的基础特征,也是汉字的本质特点,不同汉字的复杂程度极不相同,最简单的汉字仅一个笔画构成,如一,最复杂的汉字可达36个笔画之多;从结构模式分析的角度来看,复杂模式结构确实为汉字的结构识别算法带来不小的负担,但是从汉字的结构统计算法来说,复杂的汉字结构往往增加了汉字之间的差异性,汉字识别反而从中获得益处,使汉字获得优于其他文字的识别性能。汉字的复杂笔画结构可以分层分解为由笔段、笔画、字根、单字4个层次组成,如果考虑到词是词义表达的最小单位,则可以增加语义层次为5个层次。构成了汉字基本笔画的汉字不同层次结构,这可以为汉字的结构分析和汉字结构识别带来很大的益处。汉字使用的频度也是汉字的重要特点。虽然汉字的数量极其巨大,但其利用频度极不相同,且使用频度极高的汉字数量十分有限,GB 2312一级3755个汉字的使用频度高达99.99%,日常生活常用汉字仅2000余字。综上分析,我们可以看到,汉字不仅数量极其浩大,汉字字符达数千至数万(4000~70000)之多;字符结构非常繁杂,汉字的笔画数最多可达到36画;字形变化巨大:由于字体的不同,给印刷体汉字识别带来一定的困难;而更困难的是无约束的手写汉字的识别,由于书写者不同、书写条件不同,使得汉字字形变化差异多样。可想而知,类别数量巨大、字符结构复杂、字形无约束巨大变化,给超多类高性能汉字识别带来了巨大的挑战。汉字识别的困难主要表现在结构复杂和变化、数量巨大的字符识别上,而汉字的复杂结构却又为汉字识别提供了足够的汉字特征信息,使识别的困难得以化解。而且汉字较规则和聚团的方块字形,也为汉字文本的切分带来很大便利。和英文等其他文字相比,其字符数目虽然很少,但笔画简单、结构信息的缺乏不仅给识别带来困难,而且字形的不规则也给字符切分带来巨大的困难,成为文本识别难以克服的障碍。实际上,目前汉字文档(无论是印刷或手写的)识别性能已获得优于其他文字文档识别的性能。汉字不仅有识别的优势,而且汉字是最精练和高效的文字。著名学者季羡林说汉字是世界语言里最精炼的一个语种。同样表达一个意思,如果英语需要60秒,汉语5秒就够了。而表示同样内容的英文文本的英语字母数与汉语文本中汉字字符数目之比平均可达到3.25之多。同时,汉字具有极强的组词功能,通过少量的常用汉字,可以生成大量新的词条和词语。而英语需要学习的新词汇达到1000万条,因此汉字是最具扩展学习能力的文字。这些优点为汉语文化的发扬光大打下坚实的基础。1.2.4中文信息处理中文信息处理指的是对汉字及其他民族文字的计算机信息化处理,即用计算机对汉语(包括口语和书面语)进行转换、传输、存储、分析等信息处理的科学,是我国信息化发展的基础。显然,中文信息计算机处理必须要解决好汉字的输入、存储、传递、输出等问题。北京大学王选教授激光照排的创新,解决了汉字的计算机输出问题,极大地推动了中文信息处理的发展。但是,中文信息处理还必须解决中文的计算机输入问题。由于西方研发的打字机键盘适用于西文的键盘输入,利用键盘输入巨大数量的汉字困难重重。在中文信息处理发展的初期,由于汉字输入遇到的极大困难,曾引起汉字能否适应计算机时代的极大困惑和争论,甚至曾引发了汉字拉丁化的思潮。随着上千种中文键盘输入法的出现,主要包括表音输入和表形输入方法,或两者兼之,使得利用键盘的汉字的计算机输入方法得以推广使用,成为解决汉字计算机输入的基本手段。但由于手工键入的繁琐和低效,完全无法满足和适应海量大数据资源和高速信息化要求。汉字和文档的自动识别、汉字的语音识别输入等技术的发展和日趋成熟,为汉字计算机输入带来新的希望。汉字识别和汉字语音识别成为20世纪早期研究者努力攀登的高峰。通过30余年的研究探索,汉字及重要民族文字文档的自动识别已经成功实现,并得到广泛推广和应用。而且,在目前汉字识别计算机输入水平的情况下,已经超过了一般拼音文字识别的计算机输入水平,这对汉字信息化的发展产生了巨大的推动力,使千年古老的汉字能在当今计算机信息化时代重放光芒。1.3文字识别和汉字识别文字是人类信息最集中的表象和最重要的载体,对人类文明的传承和发展起着决定性的作用。在计算机信息化过程中,在互联网深入改变了世界和人们的生活方式的今天,各种文字记录都迫切面临着电子化的要求,以期利于计算机处理、通信、检索和转换。西方国家在20世纪中期开始研究和发展西文光学字符识别optical character recognition,OCR技术和文档识别技术,以使大量文字资料能快速、方便、省时省力和及时地自动输入计算机,实现信息处理的电子化。显然,汉字的信息化处理也将大大依赖于汉字识别和语音识别的发展。我们知道,人们认字的过程是根据对文字的字符图像的视觉观测,借助大脑的认知,对文字的类别加以区分辨识的过程,而不受字符图像千变万化的影响(无论是印刷的、手写的,还是摄像获取的)。什么是文字识别?就是要使计算机实现人们通过大脑完成的识图认字的功能。也就是利用计算机将人们可以阅读的文字图像信息,自动转化为计算机可以阅读、可查询的以计算机内码表示的文本信息。文字识别系统就是基于对文字图像的传感输入,利用计算机完成对文字图像内涵的文字类别的模式辨识,并将文字的类别以字符编码表示和输出的系统。也就是说,文字识别就是对观测的文字图像内涵的文字类别的模式辨识和转换,而与文字的大小、字体、印刷字的字模、不同个人书写的变化和差异等均无关系。我国是使用汉字的国家,汉字记载了我国五千年的悠久历史文明,而且在现代文明中起着不可替代的作用。但是,数量浩大、结构繁杂、变化多端的汉字难以输入计算机的问题,曾一度成为汉字信息化发展的拦路虎。在汉字信息化的过程中,众多汉字编码与汉字键盘输入方案主要有字形编码和拼音编码两类都是拆分汉字以适应为西方文字设计的键盘输入,费时费力。寻找自动和快速的汉字文档计算机输入方法成为人们深思和努力求解的问题。因此,研究和发展汉字识别的理论和方法,解决数量浩大、结构繁杂、变化多端的汉字识别问题,并解决好汉字文本资料、手写汉字文本、手写汉字以及手写数字等海量文档的自动、快速、方便地输入计算机这类问题,对于汉字的信息化具有特殊重要的意义。对于汉字识别的研究,也是关于计算机智能感知和认知问题的研究,所关注的是如何利用计算机实现人类的智能感知和认知的研究。毫无疑问,这是当前模式识别和计算机视觉学科的重要课题,具有极其重要的理论和实际意义。国际上,1966年IBM公司的Casey和Nagy首次发表了汉字识别的文章\[1\],国内的汉字识别研究开始于20世纪70年代末,我国科学工作者经过近30年的研究和努力,已经从理论和实践上基本解决了汉字识别问题,即:实现了对各种实际文本图像的计算机自动识图认字,用计算机自动实现对各种文字,包括古今中外(简繁汉、英、日、韩、藏、维哈柯、阿等)多种文种的、各种印刷字体的、各种复杂图文版面的识别、理解和重构,不仅解决了印刷文本的识别问题,而且还解决了手写(包括联机手写和脱机手写)汉字和数字的识别问题。识别系统在国民经济各行各业得到普遍推广和使用,成为国家信息化不可或缺的手段。总结起来,文字识别就是利用计算机将纸张上(或其他物理器件上)人们可以阅读的文字图像信息,自动转化为计算机可以阅读和查询的以计算机内码表示的文本信息。这种文字信息的数字化过程是现代信息化时代的基础,是使得计算机能够对各种文本信息进行信息的智能利用、检索和查询的前提条件。而文字识别作为文字信息高质量和高效率自动数字化的基本手段,在现代信息化时代的重要性就可想而知了。1.4文字识别研究历程文字识别技术的研究已经有半个多世纪的历史。参考Arica在文献\[2\]中的划分方法,我们可将字符识别的研究历程大致分为3个阶段。(1) 早期阶段(20世纪5070年代):字符识别的研究出现在计算机诞生之后不久,最初起步于对印刷体字符的识别,50年代中期出现了相应产品\[3\],随后逐渐地扩展到手写字符识别,可识别的字符集也从简单的数字、英文扩展到其他各种文字。1966年,IBM公司的Nagy等人首次发表了关于汉字识别的文献\[1\]。这个时期的字符识别方法受到计算机运算能力和数据采集水平的极大限制,以简单的图像匹配为主,识别性能低,对字符图像的质量也有着很严格的要求。(2) 理论发展阶段(20世纪8090年代中期):这是字符识别的实验室研究空前活跃的一个时期,计算机运算速度的提高和模式识别理论的成熟共同促进了字符识别技术的迅速发展,世界各地的学者们掀起了字符识别研究的热潮,每年均有大量研究文献问世,各种各样的方法被应用于字符识别中来\[4\|9\]。与此同时,真正实用化的识别系统也开始进入市场。在汉字识别方面,日本学者首先在特征匹配方法上取得了重要的进展\[6,7\],大大提高了汉字的识别率,而国内学者也不甘落后,以中国科学院自动化所、清华大学电子系、北京邮电大学为代表的研究单位先后致力于汉字识别的研究,并很快在识别性能上取得了长足进步,达到了国际领先水平。(3) 全面应用阶段(20世纪90年代末期到现在):进入90年代末期后,大规模的字符识别研究热潮有所减退,新的识别方法出现得不多,但是随着
|
|