全文摘要
本发明公开了一种场景文字检测方法,包括:利用神经网络对输入图像进行特征提取,并对提取的特征图进行上采样操作,得到不同尺寸的特征图;以最大尺寸的特征图为标准,将其余尺寸的特征图映射为与最大尺寸的特征图相同的尺寸;将映射到相同尺寸的特征图进行尺度信息的融合,得到融合后的特征图,这一融合操作能够使不同尺寸的文字在融合后的特征图中统一激活;对融合后的特征图进行文字框的回归和分类操作,得到场景文字检测结果。上述方法能够从根本上提升特征图的质量,从而提升场景文字检测的性能。
主设计要求
1.一种场景文字检测方法,其特征在于,包括:利用神经网络对输入图像进行特征提取,并对提取的特征图进行上采样操作,得到不同尺寸的特征图;以最大尺寸的特征图为标准,将其余尺寸的特征图映射为与最大尺寸的特征图相同的尺寸;将映射到相同尺寸的特征图进行不同尺度信息的融合,这一融合操作能够使不同尺度的文字特征在融合后的统一尺寸的特征图中得到统一的激活;对融合后的特征图进行文字框的回归和分类操作,得到场景文字检测结果。
设计方案
1.一种场景文字检测方法,其特征在于,包括:
利用神经网络对输入图像进行特征提取,并对提取的特征图进行上采样操作,得到不同尺寸的特征图;
以最大尺寸的特征图为标准,将其余尺寸的特征图映射为与最大尺寸的特征图相同的尺寸;
将映射到相同尺寸的特征图进行不同尺度信息的融合,这一融合操作能够使不同尺度的文字特征在融合后的统一尺寸的特征图中得到统一的激活;
对融合后的特征图进行文字框的回归和分类操作,得到场景文字检测结果。
2.根据权利要求1所述的一种场景文字检测方法,其特征在于,通过连续的上采样模块对提取的特征图进行上采样操作;在上采样过程中,将当前的特征图和相同尺寸的浅层特征图进行级联操作。
3.根据权利要求1所述的一种场景文字检测方法,其特征在于,所述将其余尺寸的特征图映射为与最大尺寸的特征图相同的尺寸包括:
通过通道匹配层改变输入特征图的通道数到指定大小;
由尺寸映射层通过压缩特征图的通道数实现尺寸的扩大,从而将输入特征图的尺寸映射为最大尺寸的特征图相同的尺寸。
4.根据权利要求1所述的一种场景文字检测方法,其特征在于,所述将映射到相同尺寸的特征图进行不同尺度信息的融合包括:
通过两个方向的连续卷积操作对包含不同尺度信息的特征图进行叠加;同时运用注意力机制控制前层的尺度信息的传递;
再通过特征聚合操作将叠加结果与注意力机制操作结果聚合。
5.根据权利要求1所述的一种场景文字检测方法,其特征在于,在训练阶段,采用随机梯度下降法进行端到端的训练,整体损失函数为:
L=Lcls<\/sub>+λreg<\/sub>Lreg<\/sub>
上式中,Lcls<\/sub>为分类损失,Lreg<\/sub>为回归损失,λreg<\/sub>为平衡参数。
6.根据权利要求5所述的一种场景文字检测方法,其特征在于,
分类损失Lcls<\/sub>表示为:
Lcls<\/sub>=λR<\/sub>RL+λD<\/sub>LDice<\/sub>
设计说明书
技术领域
本发明涉及文字识别技术领域,尤其涉及一种场景文字检测方法。
背景技术
自然场景文字检测与识别是一种通用的文字识别技术,已成为近年来计算机视觉与文档分析领域的热点研究方向,其被广泛应用于车牌识别、无人驾驶、人机交互等领域。
由于自然场景中的文字检测与识别面临背景复杂、分辨率低下、字体多变等困难,导致传统的文字检测与识别技术无法应用到自然场景的文字检测与识别中。文字检测技术作为识别的基础,具有重大的研究意义。
近年来,随着深度学习技术在目标检测领域的发展,通用的目标检测技术在场景文字检测中达到了比较好的效果。深度学习运用于自然场景文字检测成为了一种趋势。但是由于这些方法包含较繁琐的后处理步骤和文字检测本身的多样性,导致检测的速度和精度还有待提升。
发明内容
本发明的目的是提供一种场景文字检测方法,能够提升文字检测的召回率。
本发明的目的是通过以下技术方案实现的:
一种场景文字检测方法,包括:
利用神经网络对输入图像进行特征提取,并对提取的特征图进行上采样操作,得到不同尺寸的特征图;
以最大尺寸的特征图为标准,将其余尺寸的特征图映射为与最大尺寸的特征图相同的尺寸;
将映射到相同尺寸的特征图进行不同尺度信息的融合,这一融合操作能够使不同尺度的文字特征在融合后的统一尺寸的特征图中得到统一的激活;
对融合后的特征图进行文字框的回归和分类操作,得到场景文字检测结果。
由上述本发明提供的技术方案可以看出,通过尺寸映射操作可以统一特征图的尺寸,通过建立尺度关系能够传递特征图的尺度信息,由于不同尺寸的特征图对不同尺度的文字具有更好地表达(小尺寸的特征图能够更好地检测大目标而丢失小目标的细节,大尺寸的特征图则相反),从而能够使不同尺度的文字在特征图中实现更加统一地激活,从根本上提升特征图的质量,从而提升场景文字检测的性能。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域的普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他附图。
图1为本发明实施例提供的一种场景文字检测方法的示意图;
图2为本发明实施例提供的尺寸映射的示意图;
图3为本发明实施例提供的双向卷积操作的示意图;
图4为本发明实施例提供的特征聚合操作的示意图;
图5为本发明实施例提供的场景文字检测结果示意图。
具体实施方式
下面结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明的保护范围。
本发明实施例提供一种场景文字检测方法,首先,将提取的不同尺寸的特征图映射到统一的尺寸。然后,在特征图中建立尺度关系模块实现不同尺度的特征传递。由于这些特征图对不同尺度的文字具有更好的表达(小尺寸的特征图能够更好地检测大目标而丢失对小目标的细节检测,大尺寸的特征图则相反),该操作能够使不同尺度的文字在特征图中实现更加统一地激活,从根本上提升特征图的质量。另外,本文发明实施例还提出了一种新的损失函数Recall Loss,它通过对增加对弱检测的文字实例在损失函数中损失项的权重,使网络更加关注没有检测到的文字区域,从而有效地提升文字检测的召回率。
如图1所示,为本发明实施例提供的一种场景文字检测方法示意图,主要包括:
1、利用神经网络对输入图像进行特征提取,并对提取的特征图进行上采样操作,得到不同尺寸的特征图。
本发明实施例中,通过连续的上采样模块对提取的特征图进行上采样操作。在上采样过程中,将当前的特征图和相同尺寸的浅层特征图进行级联操作。
示例性的,通过本步骤可以得到四种不同尺寸的特征图。
图1示例性的给出了实现本方法的网络框架。主网络中去掉ResNet50网络后面的全连接层,并将该网络嵌入本文的框架进行特征提取操作。之后加入了4层额外的卷积层(F1,F2,F3,F4)进行上采样操作。在上采样过程中,将和当前特征图相同尺寸的浅层特征图进行级联。图1中的符号设计图
相关信息详情
申请码:申请号:CN201910567794.2
申请日:2019-06-27
公开号:CN110263877A
公开日:2019-09-20
国家:CN
国家/省市:34(安徽)
授权编号:授权时间:主分类号:G06K 9/62
专利分类号:G06K9/62;G06K9/32
范畴分类:40B;
申请人:中国科学技术大学;北京中科研究院
第一申请人:中国科学技术大学
申请人地址:230026 安徽省合肥市包河区金寨路96号
发明人:张勇东;王裕鑫;谢洪涛;李岩
第一发明人:张勇东
当前权利人:中国科学技术大学;北京中科研究院
代理人:郑立明;郑哲
代理机构:11260
代理机构编号:北京凯特来知识产权代理有限公司
优先权:关键词:当前状态:审核中
类型名称:外观设计
标签:上采样论文;