【技术白皮书（2）】第一章：基于深度学习的文本检测与识别的技术背景 - ai人工智能 - 透明七彩巨人-tmqcjr.com

1.技术背景

1.1技术背景——什么是 文本 检测与识别

OCR全称Optical Character Recognition，即光学字符识别，最早在1929年被德国科学家Tausheck提出，定义为将印刷体的字符从纸质文档中识别出来。现在的OCR，狭义上指对输入扫描文档图像进行分析处理，识别出图像中文本信息。而随着OCR技术的日益发展，人们已不再仅仅满足于文档或书本上的文本，开始将目标转移到现实世界场景中的文本，这被称为场景文本识别（Scene Text Recognition，STR）。

因此目前的OCR通常泛指所有图像文本检测和识别技术，包括传统文档图像识别与场景文本识别技术。自然场景文本提取技术是传统 OCR 技术在自然场景图像的扩展和延伸，具有广阔的应用前景。自然场景文本主要出现在车牌、广告牌、路标和招牌等场景上。不同于传统的扫描图像文本，自然场景文本因表现形式丰富，图像背景复杂，以及图像拍摄引入的干扰因素等的影响，使得对其的分析与处理难度远高于传统的扫描文档图像。

自然场景中文本的多样性和 多变性 ：与文档中的脚本不同，自然场景中的文本表现出更高的多样性和多变性。例如，场景文本的实例可以使用不同的语言、颜色、字体、大小、方向和形状。此外，场景文本的高宽比和布局可能会有显著差异。所有这些变化都为为自然场景中的文本检测和识别算法设计提出了挑战。

背景的复杂性和干扰性： 自然场景的背景几乎是不可预测的。可能会有与文本非常相似的模式（例如，树叶、交通标志、砖块、窗户和栅栏），或者由异物造成的遮挡，这可能会导致混淆和错误。

不完美的成像条件 ：在不受控制的情况下，无法保证文本图像和视频的质量。也就是说，在较差的成像条件下，文本实例可能由于拍摄距离或角度不当而导致低分辨率和严重失真，或由于失焦或抖动而模糊，或由于低光水平而产生噪声，或被高光或阴影破坏。

虽然说普通文档识别与场景文本识别相比通常来说难度更小，但具体到细分领域也面临着许多挑战。比如目标扫描票据，往往由于扫描仪分辨率低、纸张、油墨质量差等原因导致扫描的票据质量低下，同时，字体过小、存在干扰文本也是需要考虑的问题。

文本检测和识别技术应用场景广泛，存在着巨大商业价值。各大互联网公司也纷纷推出了许多相关技术支持或应用，涉及方方面面，包括名片、快递单、身份证、银行卡、车牌、路牌、广告牌、商品包装袋、营业证、试卷、发票收据等。

场景文本的提取技术可以分为两个不同的子任务，包括自然场景文本检测和自然场景文本识别。自然场景文本检测是准确定位自然场景中文本的位置，自然场景文本识别则是识别自然场景图像中的文本信息，而端到端自然场景文本检测与识别则是将检测与识别组合成一个完整的过程，在成功定位到文本位置的同时识别出对应的文本内容。近年来，随着深度学习技术的快速发展，国内外学者针对各种问题和挑战，在自然场景文本检测、识别以及端到端自然场景文本检测与识别的任务中都尝试提出了相应的解决方案，极大地促进了自然场景文本提取和理解技术的发展。相比于传统的依赖于手工设计特征的自然场景文本检测与识别算法，基于深度学习的方法具有以下特征:

1)自动化程度高。基于深度学习的自然场景文本检测与识别算法可以自动地捕获文本图像的高级视觉特征，不仅使研究人员和相关从业人员摆脱了手工设计特征和验证特征的繁复过程，而且大大降低了研究人员的门槛。

2)检测识别性能高效。基于深度学习的自然场景文本检测与识别算法的识别性能相比于基于手工设计特征的传统文本识别算法而言，识别性能更好。

3)泛化性能优越。基于深度学习的自然场景文本检测与识别算法具备更优越的泛化性能，可以很容易地应用于相似的视觉任务中。

近年来随着深度学习技术的飞速发展，OCR 技术逐渐由手工设计文本特征训练模型的方式演变成使用深度神经网络模型，在文本识别效果上也有了较大的提升。基于深度学习的方法可分为独立两阶段方法以及端到端的一段式的文本定识方法。下文中将分别介绍独立两阶段的文本检测和文本识别的方法，以及端到端的一段式的文本检测识别方法。

参考文献：

刘崇宇，陈晓雪，罗灿杰，金连文，薛洋，刘禹良. 2021. 自然场景文本检测与识别的深度学习方法. 中国图象图形学报， 26(06):1330-1367

Zobeir Raisi， Mohamed A. Naiel ， Paul Fieguth ， Steven Wardell ， John Zelek ， “ Text Detection and Recognition in the Wild: A Review “ arXiv:2006.04305v2 [cs.CV] 30 Jun 2020

Shangbang Long ， Xin He ， Cong Yao ， “ Scene Text Detection and Recognition:The Deep Learning Er a “ arXiv:1811.04256v5 [cs.CV] 9 Aug 2020

合合信息

合合信息是一家人工智能及大数据科技企业，基于自主研发的领先的智能文字识别及商业大数据核心技术，为全球C端用户和多元行业B端客户提供数字化、智能化的产品及服务。

理论 OCR技术

联系人：	透明七彩巨人
Email：	weok168@gmail.com