基于循环神经网络的图像特定文本抽取方法

杨恒杰; 闫铮; 邬宗玲; 方定邦; 段放

doi:doi:10.3788/LOP56.241501

激光与光电子学进展, 2019, 56 (24): 241501, 网络出版: 2019-11-26

基于循环神经网络的图像特定文本抽取方法下载： 1186次

Extraction Method of Interest Text in Image Based on Recurrent Neural Network

论文大纲

杨恒杰闫铮邬宗玲方定邦段放 ^*

作者单位

华侨大学信息科学与工程学院, 福建厦门 361021

AI 词云图 AI一句话精读 AI短摘要

注：本部分内容由 AI 自动生成，请您知悉。

摘要

光学字符识别(OCR)难以针对图像中某些特定文本进行识别,尤其在实际场景中,识别结果通常会包含大量噪声文本。针对这一问题,提出一种基于循环神经网络的双向长短时记忆-条件随机场(BLSTM-CRF)模型。首先利用BLSTM网络捕获OCR识别结果中序列的上下文信息,得到特征序列;然后结合CRF建立模型特征与标签的关系,进行标签预测,通过标签即可得到特定文本。实验结果表明,该方法在场景图像数据集YNIDREAL上可以达到88.52%的准确率,相较于CRF模型,准确率提高了16.39个百分点,证明了本方法的可行性和稳健性。

Abstract

It is difficult to recognize a certain text of interest in the image using the optical character recognition (OCR) method; particularly in natural scenes, the recognition results usually contain a large number of noisy texts. To address this problem, a model termed bidirectional long short term memory-condition random field (BLSTM-CRF) based on a recurrent neural network for extracting texts of interest is proposed in this study. First, a BLSTM network is implemented to capture the context information of the sequence obtained by the OCR method, thereby obtaining feature sequences. Second, the relationships between the model features and tags are established by introducing the CRF. Then the text of interest can be obtained through the tags. Experimental results indicate that the proposed method can achieve an accuracy of 88.52% on YNIDREAL dataset. Compared with the CRF model, the accuracy of the proposed method is improved by 16.39 percentage points, which proves the feasibility and robustness of the proposed method.

1 引言

相对于颜色、大小、纹理等特征信息,图像中的文字信息包含了高层次的语义信息。这些信息广泛应用于证件录入、拍照翻译、图像理解等领域^[1]。实际应用中所需的信息往往是图像中部分特定的文本信息,而在一些自然应用场景图像中,直接通过光学字符识别(OCR)技术对图像进行识别,识别出来的文本信息往往包含大量的非特定的文本(噪声文本)信息。因此如何从图像中进行特定文本抽取,仍然是业内广泛研究者关注的重点。

早期关于图像的特定文本抽取主要是通过OCR中的版面分析来实现,即首先利用版面分析的方法得到图像中特定的文本区域,然后对特定文本区域进行文字识别。其中版面分析的方法可以归结为三大类^[2]:1)自顶向下分析法^[3];2)自底向上分析法^[4];3)混合分析法^[5]。其中:自顶向下主要以整幅图像或较大的区域块为基础,逐渐细分,得到各种类别区域;自底向上的思路与自顶向上相反,视每个像素为独立的单位;混合分析法则是综合以上两种思路。这些方法对文档图像的依赖性较强, 且其分析过程包含大量复杂的图像处理技术,导致不能很好地泛化到其他类型的图像上。

近年来OCR研究主要集中在解决背景复杂、拍摄角度和光线不均、低分辨率的自然场景图像上,其方法也逐渐应用到端到端的场景文字检测和场景文字识别^[6-7]中。场景文字检测的方法主要包括基于连通域法^[8-9]、滑窗法^[10]和深度学习法^[11],其中基于连通域与基于滑窗的方法通常计算量较小,但难点在于如何提取一个较好的特征来训练分类器以应对背景复杂、文字旋转等情况。近年来,深度学习法在手写识别^[12]、目标检测^[13-14]等领域取得了较好的效果。典型的代表为Jaderberg等^[15]与Liao等^[16]提出的基于生成文本候选区的文字检测模型,该模型在任意方向文本的检测上表现出色。Zhou等^[17]则是采用全卷积网络(FCN)的结构设计模型,在英文文本检测上达到了当时最好的检测效果。Tian等^[18] 利用更深的网络VGG16来提取特征,结合双向长短时记忆(BLSTM)网络学习文字空间的上下文信息,有效地排除了非文字区域,从而使得文字检测更加稳健。有关场景文本识别的研究有很多。Jaderberg等^[19]通过合成的9×10⁶数据来训练卷积神经网络(CNN),达到了出色的识别效果,但是其全连接层限定了单词识别的种类,无法识别语种之外的样本。为了解决上述问题,Liao等^[20]借鉴语义分割的思想,利用FCN结构直接识别字符级别的文本。Shi等^[21]设计一种基于序列建模的端到端的模型来识别文字,由CNN提取特征,BLSTM对序列建模,CTC(Connectionist Temporal Classification)转录,最终取得较好的识别效果,因此该模型目前也成为了文字识别领域主流的识别框架。

上述端到端的OCR技术通常无法对特定文本进行识别,其整体识别结果常包含大量的噪声文本,场景图像的复杂性,导致难以通过确定的规则来排除噪声文本。例如:特定文本为自然场景下身份证图像中的姓名部分,虽然可以通过OCR技术来检测和识别图像中的所有文字,但是由于场景图像的复杂性,易检测出噪声文本,识别结果对应于一串可编辑文本(姓名、噪声文本等),很难确定其中究竟哪一部分为姓名部分。为了解决该问题,受自然语言处理领域序列标注任务的启发^[22],本文提出一种新的特定文本抽取思路,即双向长短时记忆-条件随机场 (BLSTM-CRF)模型。将该问题类比于序列标注的问题。首先,通过BLSTM网络捕获OCR输出结果序列的上下文信息,为其建立内在的联系;然后通过CRF显式的内容,根据整个序列的标签进行决策,得到最佳的标签结果;最后根据标签即可得到特定的文本。通过模型直接对OCR结果进行处理可以避免对图像进行复杂的版面分析。利用云南省普洱澜沧供电局提供的无约束自然场景下的身份证图像数据集YNIDREAL进行方法验证。实验结果表明,本文方法可以达到88.52%的准确率,且相较于传统CRF模型,准确率提高了16.39个百分点,在含有大量噪声文本的图像中仍可以很好地进行抽取,由此表明该方法具有较好的稳健性。

2 基本原理

本文从序列标注的角度设计实现OCR特定文本的抽取。BLSTM-CRF模型主要由两部分构成:第一部分为BLSTM网络,用于捕获上下文信息并编码序列;第二部分为CRF,用于统计分析得到最后的标签。

2.1 序列标注

序列标注任务是自然语言处理(NLP)领域里典型的任务之一,通常是给定一串输入序列x=(x₁,x₂,…,x_n),通过一系列算法来预测序列对应的标签序列y=(y₁,y₂,…,y_n),其中n为序列的长度。主要的序列标注任务包括词性标注(POS)、语义角色标注(SRL)以及命名实体识别(NER)等,图1为一个命名实体识别示例,其实体主要包括person,location,organization。相应的标签分别为PER,LOC,ORG,并用B-和I-分别代表实体标签的开始和实体标签的剩余部分,O代表非实体标签。传统序列标注的方法大多基于线性统计模型,如:隐马尔可夫模型(HMM)或CRF模型^[23],由于该类模型需要较多人为设计和干预,因此很难向其他任务推广。近年来循环神经网络(RNN)凭借其自身的结构特征,通过获得序列之前时刻的依赖关系,协助决策当前时刻的输出,在标注任务中得到了出色的表现^[24]。

图 1. 命名实体识别示例

Fig. 1. Example of name entity recognition

下载图片查看所有图片

2.2 长短时记忆网络单元

经典的RNN模型在训练过程中会存在梯度消失和梯度爆炸等问题,导致其难以获得长距离依赖。针对该问题,文献[ 25]中提出RNN的一类变种——长短时记忆(LSTM)网络。其构成单元如图2所示。

图 2. LSTM网络单元

Fig. 2. LSTM network unit

下载图片查看所有图片

图2中x为输入向量,h为隐藏层输出向量, $\begin{matrix} \tilde{c} \end{matrix}$ 为LSTM单元待存储的信息向量,t为当前时刻,t-1为前一时刻。序列的信息主要存储在信息传递向量c中,并通过三个门控单元:输入门(i_t)、输出门(o_t)、遗忘门(f_t)来控制信息的传递。

t时刻的LSTM单元更新公式为

\begin{matrix} \{\begin{matrix} i_{t} = σ (W_{ix} x_{t} + W_{i h} h_{t - 1} + b_{i}) \\ f_{t} = σ (W_{fx} x_{t} + W_{f h} h_{t - 1} + b_{f}) \\ o_{t} = σ (W_{ox} x_{t} + W_{o h} h_{t - 1} + b_{o}) \\ {\tilde{c}}_{t} = \tan h (W_{cx} x_{t} + W_{c h} h_{t - 1} + b_{c}) \\ c_{t} = f_{t} ☉ c_{t - 1} + i_{t} ☉ {\tilde{c}}_{t} \\ h_{t} = o_{t} ☉ \tan h (c_{t}) \end{matrix}, (1) \end{matrix}

式中:☉为点乘操作;σ为sigmoid激活函数;W为权重矩阵,其下标表示不同门控单元对应输入x和隐藏层输出h的权重矩阵,如W_ix代表输入门i与输入x之间的权重矩阵,W_fh代表遗忘门f与隐藏层输出h之间的权重矩阵;b为相应的偏置向量,网络通过更新权重矩阵W和b来进行优化;b_i、b_f、b_o、b_c分别为输入门、遗忘门、输出门、信息更新门的偏置向量;c_t为信息传递向量。

图 3. 前向长短时记忆网络结构

Fig. 3. Structure of forward long short time memory network

下载图片查看所有图片

2.3 双向长短时记忆网络

如图3所示,在前向长短时记忆网络的结构中,有时无法直接根据前文的信息得到“New”的标签,通过使用BLSTM网络^[26]同时考虑序列的下文信息,很容易根据“York”这个单词的信息来确定“New”的标签应该为B-LOC。如图4所示,BLSTM网络在结构上为一个前向和后向长短时记忆网络,分别用来编码序列的上、下文信息,然后将两个网络的输出向量结合起来,得到具有上下文信息的输出。

图 4. BLSTM网络结构

Fig. 4. Structure of BLSTM network

下载图片查看所有图片

2.4 条件随机场

传统的序列标注的任务,通常独立考虑每个标签,采用类似于集束搜索的求解标签分布的方法^[27-28]进行标签预测,但这种方法没有考虑到序列之间的整体关系。CRF为基于统计的序列标签预测模型,以整个序列的标签为单位,结合序列的整体信息,来考虑序列标签的最佳路径,这种方法可以避免一些歧义。如图5所示,

图 5. CRF网络结构

Fig. 5. Structure of CRF network

下载图片查看所有图片

在标准BIO的命名实体识别任务中,I-LOC后面的标签为I-ORG是不合理的。

设x=(x₁,x₂,…,x_n)代表输入序列,其中x_i表示第i个单词,本文中对应为第i个汉字,n为序列的长度。y=(y₁,y₂,…,y_n)代表输入序列x的标签,其中y_i为对应x_i的标签。定义Y(x)为输入序列x下所有可能的标签序列集合,y'为Y(x)中可能的一组标签序列。CRF模型就是在给定输入x下,预测标签y的条件概率为p,公式为

\begin{matrix} \begin{matrix} p (y | x; W, b) = \frac{\overset{n}{\prod_{i = 1}} C_{i} (y_{i - 1}, y_{i}, x)}{\sum_{y' \in Y (x)} \overset{n}{\prod_{i = 1}} C_{i} (y'_{i - 1}, y'_{i}, x)}, (2) \\ C_{i} (y_{i - 1}, y_{i}, x) = \exp ({W^{T}}_{yi - 1, yi} x_{i} + b_{yi - 1, yi}), (3) \end{matrix} \end{matrix}

式中:C_i(·)为配分函数;W_yi_-1,_yi为标签y_i_-1到y_i的状态转移矩阵参数;b_yi_-1,_yi为偏置参数。给定训练样本{(x_i,y_i)} ,模型可通过最大似然损失函数来更新W和b,最大似然损失函数为

\begin{matrix} L_{loss} (W, b) = lnp (y_{i} | x_{i}; W, b) 。 (4) \end{matrix}

2.5 BLSTM-CRF模型

本文将双向长短时记忆网络与条件随机场组合成一个BLSTM-CRF模型来对OCR识别结果进行序列标注。如图6所示,首先将OCR识别到文字的序列l=(l₁,l₂,…,l_n)中进行字嵌入,得到字向量x'=(x'₁,x'₂,…,x'_n),x'_i维度为300维的字嵌入向量,然后将序列x'送入BLSTM网络,得到编码上下文信息的600维向量h_concat,再对h_concat进行线性映射,得到各个标签(tag)的得分,并将其作为CRF的输入。线性映射的表达式为

\begin{matrix} y_{score} = W_{pro} h_{concat} + b_{pro}, (5) \end{matrix}

图 6. BLSTM-CRFs模型结构

Fig. 6. Structure of BLSTM-CRFs model

下载图片查看所有图片

式中:y_score为一个n×k_tag的矩阵,代表长度为n的序列中每个字x'_i对应每种标签的得分,k_tag为标签的种类数;W_pro和b_pro分别为映射权重矩阵和偏置。最后将CRF结合整个序列的标签,从整体角度考虑标签的最终结果,得到最终序列的标签y=(y₁,y₂,…,y_n)。

2.6 场景文字检测与识别

近年来,自然场景文本检测和识别大多是基于深度学习的端到端的方法,为了验证本文针对OCR特定文本抽取方法的有效性,采用的OCR检测与识别为当下的主流框架,其中检测部分为CTPN^[18],该模型借鉴了目标检测领域的Faster R-CNN^[29]模型中的建议区域提取的思想,设计了针对文字特点的文本建议区域提取,在ICDAR2013数据集中精确率和召回率的调和平均值F值达到了88%,可以有效地检测自然场景中的文字。识别部分为CRNN^[21],该模型利用CNN提取序列特征,并采用BLSTM网络编码序列的上下文信息,最终通过CTC解码。这种将文字识别与序列处理相结合的思想可以解决变长标签的文本识别,如“OK”与“Congratulation”。该模型在IIIT5K、SVT、IC03数据集中最高准确率分别达到了97.8%、97.5%、98.7%。

3 实验结果及分析

3.1 实验数据集

监督学习模型的训练要以大量带标签的训练集为基础,但由于缺乏标准的数据集训练本研究提出的模型,且人工标定数据耗时耗力,因此本文以身份证图像数据集作为研究对象,分析身份证的结构内容,设计算法,自动生成带标签数据,进行训练。部分生成数据如图7所示,其中共包含6种实体,name、gender、nation、birth、address、idnum,分别代表姓名、性别、民族、出生、地址、公民身份号码。本文要抽取的特定文本即为标注的6种实体,共生成训练集IDTRAIN 500份,验证集IDVAL 100份,如表1所示。

为测试本模型在自然场景下对特定文本的抽取效果,利用云南省普洱澜沧供电局提供的数据集YNIDREAL来进行实际测试,该数据集由数位供电局工作人员通过不同拍照设备采集,采集环境各不相同。从中筛选出61张背景复杂、光线不均、分辨率不一和含有大量噪声文本的代表性的作业场景样本,旨在较全面地测试本文方法在实际场景图像中的效果。图像样例如图8所示。

图 7. IDTRAIN和IDVAL中生成的文本数据及标签示例。(a)样例a;(b)样例b

Fig. 7. Samples of text data and label generated in IDTRAIN and IDVAL. (a) Sample a; (b) sample b

下载图片查看所有图片

图 8. YNIDREAL中的图像样本示例

Fig. 8. Samples of images in YNIDREAL

下载图片查看所有图片

表 1. 实验数据集的分布

Table 1. Distribution of experimental data set

Item	Dataset category	Dataset type	Dataset size
Train	IDTRAIN	Text	500
Validation	IDVAL	Text	100
Test	YNIDREAL	Image	61

查看所有表

3.2 模型训练

本实验所用的深度学习框架为Tensorflow1.8(Google Inc),字嵌入采用均匀分布初始化,范围为[-0.25,0.25) ,维度为300维,优化器为Adam,初始学习率为0.001,梯度裁剪为0.5,批量大小为64,批次内随机打乱输入数据,共迭代40次。实验所有操作环节在64位Ubuntu18.04 LST系统下运行,CPU配置为8线程Corei7-7700CPU 3.6 GHz,显卡为GTX1050,显存为2 GB。

按照字符进行标注,实体的标签完整、识别正确计为正确识别,以图7(a)中的“姓名”实体为例,模型需要将“李四”的起始标签B-name和剩余标签I-name全部预测正确,并以此来定义实体的正类(positive),其他情况则认为是实体的负类(negative)。序列标签的真实值(GT)中正类实体计为True,负类实体计为false。N_TP(true positive)代表模型预测为正类且实体标签真实值为正类的实体数量;N_FP(false positive)代表模型预测为正类且实体标签真实值为负类的实体数量;N_TN(true positive)代表模型预测为负类且实体标签真实值为负类的实体数量;N_FN(false positive)代表模型预测为负类且真实值为正类的实体数量。由此定义评价模型的指标:精确率P、召回率R、F1测度值F₁,计算公式为

\begin{matrix} \{\begin{matrix} P = \frac{N_{TP}}{N_{TP} + N_{FP}} \\ R = \frac{N_{TP}}{N_{TP} + N_{FN}} \\ F_{1} = 2 \times \frac{P \times R}{P + R} = 2 \times \frac{N_{TP}}{2 \times N_{TP} + N_{FP} + N_{FN}} \end{matrix}, (6) \end{matrix}

式中:P为模型预测出正确的正类占预测所有正类的比例;R为模型预测出正确的正类占真值中所有正类的比例;F₁为综合P与R的调和平均数,代表模型综合的效果。BLSTM-CRF模型的训练和验证仅采用生成的数据集IDTRAIN和IDVAL。图9显示了模型在IDVAL上6种实体的F₁、P、R值,图中表明,约在15个epoch训练后,模型的F₁、P、R已经近似收敛于1,可见该模型在生成数据集上具有很好的表现效果。

图 9. IDVAL上6种实体准确率。 (a) F₁值;(b) P值;(c) R值

Fig. 9. Accuracy of six entities on IDVAL. (a) F₁-score; (b) P value; (c) R value

下载图片查看所有图片

3.3 模型测试

模型整体框架包含两部分,分别为OCR部分^[30]和特定文本抽取部分。其中OCR部分已在2.6节所述,即首先通过对图像进行文字检测,然后进行文字识别,最后进行特定文本抽取。文本抽取分别比较了CRF、BLSTM-CRF模型在YNIDREAL数据集上的测试效果。其中CRF模型的人工干预特征为字符的词性和词边界。表2为CRF模型与BLSTM-CRF模型系统性能对比。可以看出,在相同的训练集、验证集和测试集下,BLSTM-CRF模型的系统平均性能要优于CRF模型。

表 2. CRF模型与BLSTM-CRF模型系统性能

Table 2. System performances of CRF and BLSTM-CRF models

Entity	CRF			BLSTM-CRF
Entity	P /%	R /%	F₁ /%	P /%	R /%	F₁ /%
Name	75.00	68.85	71.79	86.89	86.89	86.89
Gender	96.67	95.08	95.87	96.72	96.72	96.72
Nation	95.00	93.44	94.21	93.44	93.44	93.44
Birth	90.16	90.16	90.16	91.80	91.80	91.80
Address	90.48	93.44	91.94	93.65	96.72	95.16
Idnum	92.06	95.08	93.55	90.48	93.44	91.94
Average	89.90	89.34	89.59	92.16	93.17	92.66

查看所有表

图10为本方法在YNIDREAL数据集的测试结果。图10(a)中方框区域为文字检测的结果,表明除了身份证区域的信息外,其他非特定区域的噪声文本也被检测出来。图10(b)为检测区域识别得到的可编辑文本。对比图10(c)和图10(d)可见,BLSTM-CRF模型可以完整地抽取出特定文本信息,但CRF模型却出现姓名信息抽取不全、身份证号码抽取错误的问题。

图 10. YNIDREAL测试结果示例图。(a)文字检测结果;(b)文字识别结果;(c) BLSTM-CRF模型特定文本抽取结果;(d) CRF模型特定文本抽取结果

Fig. 10. Test results on YNIDREAL dataset. (a) Text detection results; (b) text recognition results; (c) result of interest text extraction using BLSTM-CRF model; (d) result of interest text extraction using CRF model

下载图片查看所有图片

表3统计了数据集上所有样本中6种特定文本全部完整抽取的结果以及OCR部分与信息抽取部分的速度。可见,文本抽取部分无论是采用BLSTM-CRF模型还是CRF模型,其抽取速度远远大于OCR部分的识别速度,即利用本文方法与OCR结合进行信息抽取时,可以忽略由信息抽取部分带来的速度损失。整体耗时仍然是由OCR部分主导,体现本文模型具有更强的实时适用性。另外BLSTM-CRF模型虽然在抽取速度上略慢于CRF模型,但是其抽取信息的准确率高于CRF模型16.39个百分点,在有噪声文本的情况下仍能很好地将特定文本抽取出来,体现了模型的稳健性。采用CRF模型进行序列标注时,必须人工设置特征,实际效果受特征的限制,因此在泛化能力上,BLSTM-CRFs模型要优于CRF模型。

表 3. 特定文本抽取完整性测试结果

Table 3. Test results of integrity of interest text extraction

Model	Succeednumber	Failnumber	Speed /(image·s^-1)		Testaccuracy /%
Model	Succeednumber	Failnumber		OCR	Extraction
CRF	44	17	0.17	97	72.13
BLSTM-CRF	54	7	0.17	82	88.52

查看所有表

4 结论

借鉴自然语言处理中序列标注的思想,提出基于递归神经网络的BLSTM-CRF模型,对OCR进行特定文本抽取。仅利用生成的数据集对模型进行训练即可在YNIDREAL数据集上达到88.52%的准确率,相对于仅利用条件随机场模型,效果提升了16.39个百分点,为OCR特定文本抽取提供了一个全新的思路。本文模型通过BLSTM编码OCR识别结果的上下文信息,对噪声文本有一定的过滤作用,证明了本文算法的稳健性。其中OCR部分与本文模型相对独立,证明方法具有一定的模块灵活性。

由于目前比较缺乏针对自然场景图像进行特定文本抽取的标准数据集,而且标准数据集对自然场景下特定文本抽取的研究至关重要,后续将考虑如何制备一个规范的标准数据集以供研究。另外,在实验过程中发现在对一些自然场景图像进行特定文本抽取时,仍然存在由于识别错误引发的抽取失败的例子,因此在未来的工作中,如何改进并提高文本识别的准确率将是一个重点。

参考文献

[1] Oliveira D AB, Viana MP. Fast CNN-based document layout analysis[C]∥2017 IEEE International Conference on Computer Vision Workshops (ICCVW), October 22-29, 2017, Venice, Italy. New York: IEEE, 2017: 1173- 1180.

[2] Le VP, NayefN, VisaniM, et al. Text and non-text segmentation based on connected component features[C]∥2015 13th International Conference on Document Analysis and Recognition (ICDAR), August 23-26, 2015, Tunis, Tunisia. New York: IEEE, 2015: 1096- 1100.

[3] OkunO, DoermannD, PietikainenM. Page segmentation and zone classification: the state of the art[R]. Fort Belvoir: Defense Technical Information Center, 1999.

[4] Moll M A, Baird H S. Segmentation-based retrieval of document images from diverse collections[J]. Proceedings of SPIE, 2008, 6815: 68150L.

[5] Bukhari SS, Al Azawi M I A, Shafait F, et al. Document image segmentation using discriminative learning over connected components[C]∥Proceedings of the 8th IAPR International Workshop on Document Analysis Systems-DAS '10, June 9-11, 2010, Boston, Massachusetts, USA. New York: ACM, 2010: 183- 190.

[6] Ye Q X, Doermann D. Text detection and recognition in imagery: a survey[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2015, 37(7): 1480-1500.

[7] Liu X Y, Meng G F, Pan C H. Scene text detection and recognition with advances in deep learning: a survey[J]. International Journal on Document Analysis and Recognition (IJDAR), 2019, 22(2): 143-162.

[8] EpshteinB, OfekE, WexlerY. Detecting text in natural scenes with stroke width transform[C]∥2010 IEEE Computer Society Conference on Computer Vision and Pattern Recognition, June 13-18, 2010, San Francisco, CA, USA. New York: IEEE, 2010: 2963- 2970.

[9] NeumannL, MatasJ. A method for text localization and recognition in real-world images[M] ∥Kimmel R, Klette R, Sugimoto A. Computer vision-ACCV 2010. Lecture notes in computer science. Berlin, Heidelberg: Springer, 2011, 6494: 770- 783.

[10] WangK, BabenkoB, BelongieS. End-to-end scene text recognition[C]∥2011 International Conference on Computer Vision, November 6-13, 2011, Barcelona, Spain. New York: IEEE, 2011: 1457- 1464.

[11] Huang WL, QiaoY, Tang XO. Robust scene text detection with convolution neural network induced MSER trees[M] ∥Fleet D, Pajdla T, Schiele B, et al. Computer vision-ECCV 2014. Lecture notes in computer science. Cham: Springer, 2014, 8692: 497- 511.

[12] 方定邦, 冯桂, 曹海燕, 等. 基于多特征卷积神经网络的手写公式符号识别[J]. 激光与光电子学进展, 2019, 56(7): 072001.

Fang D B, Feng G, Cao H Y, et al. Handwritten formula symbol recognition based on multi-feature convolutional neural network[J]. Laser & Optoelectronics Progress, 2019, 56(7): 072001.

[13] 王旭, 刘毅, 李国燕. 基于改进视觉背景提取算法的运动目标检测方法[J]. 激光与光电子学进展, 2019, 56(1): 011007.

Wang X, Liu Y, Li G Y. Moving object detection algorithm based on improved visual background extractor algorithm[J]. Laser & Optoelectronics Progress, 2019, 56(1): 011007.

[14] 赵恒, 安维胜. 结合深度学习的图像显著目标检测[J]. 激光与光电子学进展, 2018, 55(12): 121003.

Zhao H, An W S. Image salient object detection combined with deep learning[J]. Laser & Optoelectronics Progress, 2018, 55(12): 121003.

[15] JaderbergM, VedaldiA, ZissermanA. Deep features for text spotting[M] ∥Fleet D, Pajdla T, Schiele B, et al. Computer vision-ECCV 2014. Lecture notes in computer science. Cham: Springer, 2014, 8692: 512- 528.

[16] LiaoM, ShiB, BaiX, et al.Textboxes: a fast text detector with a single deep neural network[C]∥Thirty-First AAAI Conference on Artificial Intelligence (AAAI-17), February 4-10, 2017, San Francisco, California, USA. USA: AAAI Press, 2017: 4161- 4167.

[17] Zhou XY, YaoC, WenH, et al. EAST: an efficient and accurate scene text detector[C]∥2017 IEEE Conference on Computer Vision and Pattern Recognition (CVPR), July 21-26, 2017, Honolulu, HI, USA. New York: IEEE, 2017: 2642- 2651.

[18] TianZ, Huang WL, HeT, et al. Detecting text in natural image with connectionist text proposal network[M] ∥Leibe B, Matas J, Sebe N, et al. Computer vision-ECCV 2016. Lecture notes in computer science. Cham: Springer, 2016, 9912: 56- 72.

[19] JaderbergM, SimonyanK, VedaldiA, et al. Synthetic data and artificial neural networks for natural scene text recognition[J/OL]. ( 2014-12-09)[2019-05-04]. https:∥arxiv.org/abs/1406. 2227.

[20] LiaoM, ZhangJ, WanZ, et al.Scene text recognition from two-dimensional perspective[C]∥Proceedings of the AAAI Conference on Artificial Intelligence, January 27-February 1, 2019, Hilton Hawaiian Village, Honolulu, Hawaii, USA.USA: AAAI Press, 2019, 30( 1): 8714- 8721.

[21] Shi B G, Bai X, Yao C. An end-to-end trainable neural network for image-based sequence recognition and its application to scene text recognition[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2017, 39(11): 2298-2304.

[22] Huang ZH, XuW, Yu K. Bidirectional LSTM-CRF models for sequence tagging[J/OL]. ( 2015-08-09) [2019-05-04]. https:∥arxiv.org/abs/1508. 01991.

[23] Lafferty JD, McCallum A, Pereira F C N. Conditional random fields: probabilistic models for segmenting and labeling sequence data[C]∥Proceedings of the Eighteenth International Conference on Machine Learning, June 28-July 1, 2001, Williams College, Williamstown, MA, USA. USA: ACM, 2001: 282- 289.

[24] Chiu J P C, Nichols E. Named entity recognition with bidirectional LSTM-CNNs[J]. Transactions of the Association for Computational Linguistics, 2016, 4: 357-370.

[25] Hochreiter S, Schmidhuber J. Long short-term memory[J]. Neural Computation, 1997, 9(8): 1735-1780.

[26] GravesA, Mohamed AR, HintonG. Speech recognition with deep recurrent neural networks[C]∥2013 IEEE International Conference on Acoustics, Speech and Signal Processing, May 26-31, 2013, Vancouver, BC, Canada. New York: IEEE, 2013: 6645- 6649.

[27] RatnaparkhiA. A maximum entropy model for part-of-speech tagging[C]∥Conference on Empirical Methods in Neural Language Processing, May 17-18, 1996, Philadelphia, PA, USA. [S.l.: s.n.], 1996.

[28] McCallumA, FreitagD, Pereira F CN. Maximum entropy Markov models for information extraction and segmentation[C]∥Proceedings of the Seventeenth International Conference on Machine Learning, June 29-July 2, 2000, Stanford, CA, USA. USA: ACM, 2000: 591- 598.

[29] RenS, He KM, GirshickR, et al. Faster R-CNN: towards real-time object detection with region proposal networks[C]∥Neural Information Processing Systems (NIPS), December 7-12, 2015, Palais des Congrès de Montréal, Montréal Canada. Canada: NIPS, 2015: 91- 99.

[30] Shi X F.CHINESE-OCR[EB/OL]. ( 2018-04-14)[2019-05-04]. https:∥github.com/xiaofengShi/CHINESE-OCR.

杨恒杰, 闫铮, 邬宗玲, 方定邦, 段放. 基于循环神经网络的图像特定文本抽取方法[J]. 激光与光电子学进展, 2019, 56(24): 241501. Hengjie Yang, Zheng Yan, Zongling Wu, Dingbang Fang, Fang Duan. Extraction Method of Interest Text in Image Based on Recurrent Neural Network[J]. Laser & Optoelectronics Progress, 2019, 56(24): 241501.

基于循环神经网络的图像特定文本抽取方法 下载： 1186次

1 引言

2 基本原理

2.1 序列标注

图 1. 命名实体识别示例

Fig. 1. Example of name entity recognition

2.2 长短时记忆网络单元

图 2. LSTM网络单元

Fig. 2. LSTM network unit

图 3. 前向长短时记忆网络结构

Fig. 3. Structure of forward long short time memory network

2.3 双向长短时记忆网络

图 4. BLSTM网络结构

Fig. 4. Structure of BLSTM network

2.4 条件随机场

图 5. CRF网络结构

Fig. 5. Structure of CRF network

2.5 BLSTM-CRF模型

图 6. BLSTM-CRFs模型结构

Fig. 6. Structure of BLSTM-CRFs model

2.6 场景文字检测与识别

3 实验结果及分析

3.1 实验数据集

图 7. IDTRAIN和IDVAL中生成的文本数据及标签示例。(a)样例a;(b)样例b

Fig. 7. Samples of text data and label generated in IDTRAIN and IDVAL. (a) Sample a; (b) sample b

图 8. YNIDREAL中的图像样本示例

Fig. 8. Samples of images in YNIDREAL

表 1. 实验数据集的分布

Table 1. Distribution of experimental data set

3.2 模型训练

图 9. IDVAL上6种实体准确率。 (a) F1值;(b) P值;(c) R值

Fig. 9. Accuracy of six entities on IDVAL. (a) F1-score; (b) P value; (c) R value

3.3 模型测试

表 2. CRF模型与BLSTM-CRF模型系统性能

Table 2. System performances of CRF and BLSTM-CRF models

图 10. YNIDREAL测试结果示例图。(a)文字检测结果;(b)文字识别结果;(c) BLSTM-CRF模型特定文本抽取结果;(d) CRF模型特定文本抽取结果

Fig. 10. Test results on YNIDREAL dataset. (a) Text detection results; (b) text recognition results; (c) result of interest text extraction using BLSTM-CRF model; (d) result of interest text extraction using CRF model

表 3. 特定文本抽取完整性测试结果

Table 3. Test results of integrity of interest text extraction

4 结论

Article Outline

相关论文

相关资讯

关于本站 Cookie 的使用提示

全站搜索

基于循环神经网络的图像特定文本抽取方法下载： 1186次

图 9. IDVAL上6种实体准确率。 (a) F₁值;(b) P值;(c) R值

Fig. 9. Accuracy of six entities on IDVAL. (a) F₁-score; (b) P value; (c) R value