图片内文本内容提取技术研究文献综述

 2023-08-15 14:42:20

文献综述(或调研报告):

近年来图像中的文本检测与识别在图像搜索、车牌识别、图像快速文档化、工业流水线等方面的应用日益增多,吸引了众多学者进行了大量研究,然而图像本身背景复杂、光照与角度多变,加之文本语种繁多、字体尺度方向等多变,最终导致检测与识别精度难以达到应用的需求。

为学习完成课题所需知识,本人在老师的指导下,阅读多篇相关领域的文献,现综述相关内容如下:

3.1区域字符感知【1】

早些时候,图像中文本识别的方法主要通过定位单词级别的边界框训练他们的网络。但是,这些方法可能会遇到困难的情况,例如弯曲,变形或极长的文本,这些是很难使用单个边框检测到。为此,有人提出了一种新的场景文本检测方法,通过探索每个字符和字符之间的亲和力来有效地检测文本区域。为了克服缺乏单个字符级注释的缺点,他们提出的框架利用了合成图像的给定字符级注释和通过学习中间模型估计的真实图像的字符级 ground-truths。为了估计字符之间的亲和力(affinity),使用新提出的关联性表示来训练网络。据结果,此方法保证了检测复杂场景文本图像的高度灵活性,字符级文本检测明显优于最先进的检测器。

3.2 SegLink算法【2】

此算法是针对文本行边界框的宽高比范围太广、语言格式的不统一(如中文文本行没有间隔,英文文本行有间隔)、文本行的方向任意这些文本检测的难点提出的。它是在SSD目标检测方法的基础上进行改进,其基本思想:既然一次性检测整个文本行比较困难,就先检测局部片段,然后通过规则将所有的片段进行连接,得到最终的文本行,这样做的好处是可以检测任意长度的文本行。论文提出了文本行检测的两个基本组成元素“segment和link、提出了基于SSD的改进版网络结构(全卷积网络结果)同时预测不同尺度的segments和link、提出了两种link类型: 层内连接(within-layer link)和跨层连接(cross-layer link)。整个实现过程包括两部分:首先检测segments,links,然后使用融合算法得到最终文本行。

3.3 dhSegment深度学习方法【3】

论文主要基于U-net类型的网络,分别进行page extraction,baseline extraction,layout analysis ,multiple typologies of illustrations , photograph extraction 这5个文档方面的任务,并且取得了很好的结果。整体流程分为2步,第一步为先基于FCN网络结构,进行mask map的预测。第二步为对mask map的一些后处理操作,包括(1)二值化操作(Thresholding)该步骤使用的方法或者使用固定的0-1之间的阈值,或者使用大津法OTSU (2)形态学操作(Morphological operations )(3)连通域分析(Connected components analysis )去掉在二值化后还存在的的面积较小的连通区域(4)形状向量化(Shape vectorization )这里主要对直线进行向量化,找到最长的那条直线(5)对mask 提取其外形的端点,得到一个向量形式的坐标集合,类似opencv中的findContours操作。实际中还使用了KD树,可以得到基于坐标轴的长方形(rectangle),旋转的长方形(min_rectangle),任意凸多边形(quadrilateral)。

3.4基于CNN的端到端文字检测与识别【4】

剩余内容已隐藏,您需要先支付 10元 才能查看该篇文章全部内容!立即支付

以上是毕业论文文献综述,课题毕业论文、任务书、外文翻译、程序设计、图纸设计等资料可联系客服协助查找。