自然场景下文字检测的几何归一化网络 GNNets (自然场景下文案怎么写)

文章编号：44118 资讯动态 2024-12-09 iccv2019 商汤科技计算机视觉

GNNets：自然场景下文字检测的几何归一化网络 | ICCV 2019

该文章通过对待处理图像的特征图进行几何变换，从而将待处理图像中几何分布差异较大的文本框归一化到一定的几何分布范围内，提高了自然场景下文本测检的效果。

一、研究背景

随着深度学习的迅速发展，计算机视觉技术对实际生产具有影响越来越重要的影响。对图像中的文本进行检测和识别，有助于计算机理解视觉内容。

由于卷积神经网络（CNN）方法的通用性，自然场景文本检测受益于常规物体检测而快速发展。但由于自然场景中的文本在实际应用场景中具有较大的几何变化（例如宽高比或文字方向），所以其自身仍存在巨大的挑战。

对于尺度变化问题，现有方法一般通过使用一个检测头（detection header）对不同层级的特征进行检测，利用 NMS 融合结果后作为输出或者使用类似 FPN [1] 的网络将多尺度特征融合然后进行文本检测。

对于角度变化问题，现有方法一般通过直接回归文本框角度或使用对方向敏感的卷积来预测任意方向。

但目前的方法中要求检测头（detection header）需要学习到文字巨大的几何差异或者检测头（detectionheader）仅在所有训练样本中一个子集进行学习，这可能导致性能欠佳。

作者研究了几何分布对场景文本检测的影响，发现基于 CNN 的检测器只能捕获有限的文本几何分布，但充分利用所有训练的样本可以提高其泛化能力。

为了解决上述难题，作者提出了一种新颖的几何规范化模块（GNM）。每个自然场景图片中的文本实例可以通过 GNM 归一化到一定的几何分布范围内。这样所有训练样本均被归一化为有限的分布，因此可以有效地训练一个共享的文本检测头。

本文提出的 GNM 是通用的，可以直接将该模块插入到任何基于 CNN 的文本检测器中。为了验证提出方法的有效性，作者针对文字方向的差异性新建了一个测试集（Benchmark）并发布。雷锋网

二、方法描述

GNNets：自然场景下文字检测的几何归一化网络 | ICCV 2019

Fig. 1 是 GNNets 的整体网络结构图。总体网络结构由 Backbone，GNM，SharedText Detection Header 组成。通过 Backbone 提取的特征图会被输入到具有多个分支的几何规范化模块（GNM）中，每个分支由一个尺度归一化单元（SNU）和方向归一化单元（ONU）组成。

SNU 有两个不同比例的尺归一化单位（S，S1/2）和四个方向归一化单位（O，Or，Of，Or + f）。通过 SNU 和 ONU 的不同组合，GNM 会生成不同的几何归一化特征图，这些特征图将被输入到一个共享文本检测标头中。

GNNets：自然场景下文字检测的几何归一化网络 | ICCV 2019

Fig.2 是作者提出的 ONU 模块的示意图。通过应用 ONU 可以更改文本框方向。如图所示「绿色」框是原始框，「灰色」框是转换过程中的中间框，「红色」框是 ONU 的输出的结果框。

θ和θ' 分别是原始框和结果框的角度。（a），（b），（c）和（d）分别是 O，Or，Of，Or + f 的过程的示意图。由上图可以简单明了的表示 ONU 具有将 [0，π/4]，[-π/2，-π/4]，[-π/4，0] 和 [π/4，π/2] 角度的文本转换为在 [0，π/4] 角度的文本。

GNNets：自然场景下文字检测的几何归一化网络 | ICCV 2019

Fig. 3 展示了 GNM 在网络中的结构设置。对于 SNU 中的 S 使用 1x1 的卷积操作和 3x3 的卷积操作；S1/2 使用 1X1 的卷积，步长为 2 的下采样以及 3x3 的卷积。对于 ONU 中的 O，Or，Of，Or + f 中的 Operations 则分别采用不操作，旋转 feature maps，翻转 feature maps 和旋转后再翻转 feature maps。

由于多分支网络的影响，作者提出了一个针对 GNNets 的抽样训练策略。

在训练期间，作者随机采样一个文本实例，并通过旋转和调整大小 7 次来对其进行扩充，以使 GNM 的每个分支在每批次中都具有有效的文本实例用于训练。这样可以对 GNM 的所有分支进行统一训练。并且在训练过程中如果文本实例不在预先设定的几何区间内，则忽略分支中的该文本实例。

在测试过程中，作者将 GNM 中所有分支输出文本框相应地反向投影到原始比例和方向。不在分支预先设定的几何区间内的文本框会被丢弃。其余的文本框通过 NMS 合并。

三、实验结果

GNNets：自然场景下文字检测的几何归一化网络 | ICCV 2019

与原始的 PSENet[2] 相比，作者提出的 GNNets 在 ICDAR 2015[3] 和 ICDAR 2017 MLT [4] 上分别实现了约 1.3％和 2.1％的性能提升。

与 ICDAR 2015 上的 EAST[5] 和 ITN [6] 相比，GNNet 的 F-score 比它们分别高出 8％和 9％。与 FTSN [7] 相比，获得了 4.5％的性能提升。GNNets 在 ICDAR 2015 上的表现优于 FOTS [8]，在 ICDAR 2017 MLT 上的 F-score 更超出其 7.3％。并且 FOTS 使用了文字识别的数据。

在单尺度测试中，作者提出的 GNNets 在 ICDAR 2015 和 ICDAR2017 MLT 上均达到了 state-of-the-art 的性能。Fig. 5 可视化了 GNNets 和其他文本检测方法在 ICDAR 2015 和 ICDAR 2017 MLT 上的检测结果。

GNNets：自然场景下文字检测的几何归一化网络 | ICCV 2019

四、总结及讨论

1、在本文中，作者提出了一种新颖的几何归一化模块（GNM）以生成多个几何感知特征图。并且 GNM 是通用的，可以应用到任何基于 CNN 的检测器中，以构建端到端的几何归一化网络（GNNet）。

实验表明，GNNet 在检测几何分布较大的文本实例方面相较于 baseline 表现出出色的性能。并且，GNNet 在两个文字检测主流的数据集上较最新的方法获得了显著的性能提升。

2、文中研究了几何分布对场景文本检测的影响，发现基于 CNN 的检测器只能捕获有限的文本几何分布，但充分利用所有训练的样本可以提高其泛化能力，对后续文字检测以及其他相关领域有启发性影响。

3、综上所述，文本检测是 OCR 任务的首要前提，但自然场景下文字的字体变化、悬殊的宽高比、任意角度给检测任务带来巨大的挑战，本文为我们提出了目前研究方向上忽略的点，并提供了一个新颖的解决方法，但是相较与常规物体检测，文本检测领域仍然有其特殊性以及较大的提升空间。

参考文献

[1]Tsung-Yi Lin, Piotr Dollar, Ross Girshick, Kaiming He, Bharath Hariharan,and Serge Belongie. Feature Pyramid Networks for Object Detection. In CVPR,2017.

[2]Xiang Li, Wenhai Wang, Wenbo Hou, Ruo-Ze Liu, Tong Lu, and Jian Yang. ShapeRobust Text Detection with Progressive Scale Expansion Network. arXiv preprintarXiv:1806.02559, 2018.

[3]Dimosthenis Karatzas, Lluis Gomez-Bigorda, Anguelos Nicolaou, Suman Ghosh,Andrew Bagdanov, Masakazu Iwamura, Jiri Matas, Lukas Neumann, Vijay RamaseshanChandrasekhar, Shijian Lu, and Others. ICDAR 2015 Competition on RobustReading. In ICDAR, 2015.

[4]ICDAR2017 Competition on Multi-Lingual Scene Text Detection and ScriptIdentification.2017.

[5]Xinyu Zhou, Cong Yao, He Wen, Yuzhi Wang, Shuchang Zhou, Weiran He, andJiajun Liang. EAST: An Efficient and Accurate Scene Text Detector. In CVPR,2017.

[6]Fangfang Wang, Liming Zhao, Xi Li, Xinchao Wang, and Dacheng Tao.Geometry-Aware Scene Text Detection with Instance Transformation Network. InCVPR, 2018.

[7]Yuchen Dai, Zheng Huang, Yuting Gao, Youxuan Xu, Kai Chen, Jie Guo, andWeidong Qiu. Fused Text Segmentation Networks for Multi-Oriented Scene TextDetection. In ICPR, 2018.

[8]Xuebo Liu, Ding Liang, Shi Yan, Dagui Chen, Yu Qiao, and Junjie Yan. Fots:Fast Oriented Text Spotting with a Unified Network. In CVPR, 2018.

雷锋网报道。

原创文章，未经授权禁止转载。详情见转载须知。

GNNets：自然场景下文字检测的几何归一化网络 | ICCV 2019

谷普下载提醒您

本文链接：http://www.gpxz.com/article/10b337e51a1f225273cf.html

上一篇：DetectionPoseICCVTiger冠军团队技术分享20

下一篇：让静态知识动起来从知识图谱到事理图谱什么

足球小游戏,足球小游戏大全,4399足球小游戏全集,4399小游戏

4399足球小游戏大全收录了国内外足球类小游戏、实况足球小游戏、功夫足球小游戏、足球小游戏下载、最新足球小游戏。好玩就拉朋友们一起来玩吧！

游戏网游 2024-08-16 23:08:31

字体帝

字体帝(zitidi.com)，可免费商用字体下载站！设计师、打印店、淘宝商家必备字体站！找字体，就来字体帝！简单注册，即可免费下载！

下载资源 2024-08-17 00:48:48

江苏柯恩曼特装备有限公司

商业服务 2024-07-11 13:28:39

红外线对管

富宇光电成立于2006年，专业研发制造和销售红外线发射管IR、光电接收二极管PD、光敏接收三极管PT、光电开关ITR、红外接收头IRM、传感器、编码器组件，秉承“诚信创新敬业共赢”之经营理念，服务于广大客户。

商业服务 2024-08-17 20:16:30

建筑施工

建筑施工物联网应用轨道交通工程造价数控加工

网络应用 2024-08-17 22:08:21

工业级氯化锌,电池级氯化锌生产厂家,价格

晋州市冀田锌业有限公司是开发研究生产电池级氯化锌、工业级氯化锌的专业氯化锌生产厂家，公司产品有年产15000吨的氯化锌、5000吨氧化锌、2000吨硫酸锌的规模,氯化锌价格让采购省10%

编程开发 2024-07-11 13:46:00

企业网站建设

蜘蛛商务网建站平台(jz.zhizhu35.com)是一家专业的网站建设平台PC站，手机移动站，微信网站一站是开发数据自动同步，在线商城，企业官网，个人网站定制等强大的自定义建站功能应有尽有，为企业降低开发成本免维护是企业选择的最佳解决方案。

手机软件 2024-07-13 06:06:47

游戏下载

鼎速资源网为大家提供最新最全的游戏资讯和安全绿色的游戏下载服务，可以让玩家第一时间获取游戏资源以及攻略，海量资讯攻略尽在掌握，是专业免费的游戏综合服务平台。

游戏网游 2024-08-18 18:56:09

喂到好

喂到好综合服务平台

商业服务 2024-11-13 21:19:12

一体化泵站,一体化预制泵站,一体化污水提升泵站,一体化雨水泵站

同沐科技（江苏）有限公司是一家专业生产污水处理一体化泵站的企业，主要产品有一体化泵站,一体化预制泵站,一体化污水提升泵站,一体化雨水泵站,控制柜备等.

企业品牌 2025-02-09 20:14:58

学魁榜教育

智能考点精准测评，专属定制学习方案，学霸亲授免费试听，专业课辅全程陪伴

校园学生 2025-02-14 16:28:49

服务能力的厂商专访左玥灵雀云是国内唯一在容器PaaS领域有非常强产品 (服务能力的厂家有哪些)

雷锋网按，在位于中关村的灵雀云办公室LOGO前，左玥特意换上了新的公司文化衫，右手竖起大拇指的动作作为本次专访文章的封面图，文化衫上写着，IDONTSTOPWHENIMTIRED，ISTOPWHENIMDONE，近日，灵雀云宣布获得半年以来的第二笔融资，针对融资细节、用途以及灵雀云的发展问题，雷锋网对话灵雀云CEO左玥获得了第一手消...。

2024-12-10 01:06:08

2015年不是高通联发科对决之年！ (2015年到2024年是多少年)

日前联发科在北京发布了首款支持CDMA2000技术的4G64位全网通SOC解决方案，是除高通外的第二家支持全网通的芯片企业，有媒体因此认为今年将是高通联发科对决之年，这个恐怕言之尚早！联发科难进军欧美市场目前在欧美市场占据市场份额前列的是三星、苹果，据市调公司Comscore的数据，美国市场2014年Q3苹果的份额是41.7%，三星的...。

2024-12-09 20:01:57

牙膏厂还有多少牙膏可以挤 10nm工艺严重受阻 14nm产能已经告急 (牙膏厂还有多少员工)

雷锋网消息，自2012年以来，全球PC整体出货量在6年多的时间里始终处于下滑中，然而正当今年第三季度即将迎来好转的时候，Intel这边14nm，的产能却跟不上了，在决定将10nm处理器的发布推迟到2019年下半年之后，Intel刚刚发布了两款新的14nm，处理器，代号为WhiskeyLake的第八代CoreU低功耗移动处理器和用于...。

2024-12-09 17:20:56

唐尚珺现在怎么样了高考钉子户复读15年赚55万 (唐尚珺现在怎么样了?)

唐尚珺今年考了594分，被华中师大退档，1.复读经历和财富积累唐尚珺作为一名高考钉子户，经过15年的复读努力，他在2023年的高考中取得了594分，然而，尽管分数相对较高，他仍被华中师大退档，但是，通过复读这些年的努力和奋斗，唐尚珺成功积累了55万元的财富，2.考虑其他大学及途径面对华中师大退档的结果，唐尚珺可能会转向其他大学寻求进一...。

2024-12-06 15:41:21

Meta 元宇宙太烧钱建议小扎改重仓 AI 股东忍不住了 (META元宇宙亏损)

两周前，Meta召开了一年一度的Connect大会，会上，扎克伯格用一段一分钟的视频，展示了自己如何使用虚拟的身体在元宇宙里灵活运动，还没待大家激动多久，随后就被爆出该视频，造假，，使用的并非是此前Meta提出的头显全身动捕技术，而是通过第三方动捕技术完成的，也就是说，Meta花了大精力和资金在投入的元宇宙，目前都还看不到有，开花结果...。

2024-11-30 18:11:32

字节跳动被曝寻求95亿美元贷款|融资|银团|偿债

字节跳动被曝寻求95亿美元贷款,贷款,融资,银团,偿债,字节跳动

2024-09-03 14:06:34

歌词星座不求人狮子座之歌 (歌曲星座不求人)

我就是狮子座王道的狮子座傲娇的狮子座仗义的狮子座哦哦~~快点来爱我~波噔波噔~我就是用来被喜欢的波塄波塄~不喜欢我的都跌跪着不知道你们都在怕我什么我只不过是一只装模作样的大猫罢了我吃软不吃硬天生就有公主病心地太好重感情凡事都是第一名夸我夸我往死里夸我就算说我不好我也绝壁不改不改绝壁不改~~不改不要叫我大王要叫我女王小孩儿我天天来大姨妈...。

2024-07-10 02:34:53

汽车保险公司哪家口碑最好 (汽车保险公司哪家最便宜)

以下是口碑较好的汽车保险公司，1.人保车险，历史悠久、业务规模大，车险产品笼罩面广，多少钱正当，理赔服务效率高，2.安康车险，品牌信用度高、服务网络完善、理赔速度快，3.太平洋车险，多少钱正当、服务优质、理赔速度快，倡导依据自身需求和实践状况选用适合的保险公司，买车险哪个保险公司好还廉价关于普通家庭来说，必需想要选用性价比高又廉价保证...。

2024-07-07 18:30:44

伊朗总统选举第二轮投票完结 (伊朗总统选举结果)

据新华社德黑兰7月6日电伊朗选举委员会发言人穆赫辛·伊斯拉米6日清晨发表，伊朗第14届总统选举第二轮投票于5日午夜完结，计票上班随即开局，伊朗总统选举第二轮投票于外地期间5日8时开局，在第一轮投票中得票率排在前两名的前卫生部长佩泽什基安和前首席核谈判代表贾利利角逐总统职位，第二轮投票原定今日18时完结，为繁难更多选民投票，投票期间3次...。

2024-07-06 14:17:38

咪咕芒果视频体育直播怎样联结不要钱的 (咪咕芒果视频下载安装)

咪咕视频英超是要不要钱的，在咪咕视频上观看英超赛事是须要观赛券的，一场较量或许得要三张券，而观赛券须要经过购置取得，或许申请咪咕视频的会员也会送几张观赛券，不过也有不要钱的场次，但不要钱场次很少，基本都是不要钱的，咪咕视频会员不要钱及长处，咪咕视频向全网用户推出的最新通看券活动福利，付费单场赛事低至1元，用户登录咪咕视频体育专区，点击...。

2024-07-01 14:25:56

233乐园PC版下载-233乐园电脑版v4.6.0.0最新版

233乐园电脑版是一款由北京汇龙通商科技有限公司所推出的综合游戏平台。该版本是通过在电脑上安装安卓模拟器来实现运行的

2023-11-04 05:26:30

2022新版[区块链交易所]数字货币交易所[现货][秒合约]虚拟币交易所期权交易

2022新版虚拟货币交易所，现货交易期权交易秒合约交易这套源码算是比较完整的交易所了，双端都是新二开的UI，PC端是VUE源码，手机端是uniapp源码修复了数据K线，合约交易，期权交易，充提等等；推广系统也优化了下需要看...

2023-09-17 17:31:33

文章推荐

微创心通医疗通过上市聆讯仅有1款心脏瓣膜产品商业化 (微创心通医疗雪球)

1月18日消息，微创医疗旗下微创心通提交赴港上市申请书，摩根大通，花旗银行及中金公司担任其联席保荐人，上市前投资者股东包括CDG、GIC、海通基金、清池资本、高瓴资本、华泰证券等，其中，作为微创家族的一员，控股股东微创医疗持股50.06%，据招股书显示，微创心通医疗是一家医疗器械企业，专注于心脏瓣膜疾病领域的创新性和潜在最优整体解决方...。

2024-11-30 21:11:25

资讯动态

银行数字化转型非做不可的三件事丨鲸犀峰会平台化平安银行CIO张斌敏捷研发云原生 (银行数字化转型思路)

银行拥有数百数千人的IT团队，如何能够加快推进数字化转型进程，科技人员超过8500，的平安银行提供了实践案例，近日，在由雷锋网AI金融评论联合主办的，鲸犀产业数字峰会，上，平安银行首席信息执行官张斌，就分享了平安银行数字化转型经验，鲸犀产业数字峰会，是由业内最顶尖的企业家、工程领袖、CIO、解决方案专家、投资家，联合发起的数字化系列论...。

2024-11-30 17:21:43

资讯动态

健康码会消亡吗 (健康码会不会变)

作为一款疫情期间被突击式开发出来的新物种，健康码让人们见识了它疫情防控的巨大威力，出行必备神器，而在国内防疫工作步入有序恢复阶段时，欧美国家还处在确诊病例高增速爆发期，，美版健康码，也在科技巨头苹果谷歌的联手中被打造出来，当我们在国内的健康码上线100天之际重新审视它的出现，会觉察到它不仅是，特殊时期的一种探索，，也是在线政务、数字政...。

2024-11-30 16:18:26

资讯动态

瑞格尔I22投影仪怎么样一文看懂瑞格尔I22参数配置 (瑞格尔I21)

发表在瑞格尔投影仪2024，5，2309，21瑞格尔I22是一款配备一体式云台支架的投影仪新品，具体在性能配置方面如何呢，下面就来详细了解瑞格尔I22投影仪参数配置，看看瑞格尔I22投影仪怎么样，各方面有什么优缺点，是否可以满足日常使用需求，瑞格尔I22投影仪怎么样，1.光学参数在亮度方面，瑞格尔I22的亮度达到370CVIA流明，实...。

2024-11-29 01:31:29

网络百科

女装加盟品牌 (女装加盟品牌有哪些)

女装品牌加盟时注意事项，一、谨慎选择女装品牌，选择弱势品牌的女装加盟总部，虽然可以少缴女装加盟费与确保金，但相比之下，所能享有的总部的资源和帮助也较少；因而许多事情都是要靠女装加盟店自己打理，竞争力自然也就较弱同时，由于女装加盟费较低，往往会造成女装加盟店数量急剧增加，造成女装加盟商内部恶意竞争，二、慧眼细辨签订合同，签订合同也是女装...。

2024-11-27 15:27:02

创业加盟

自然场景下文字检测的几何归一化网络 GNNets (自然场景下文案怎么写)

一、研究背景

二、方法描述

三、实验结果

四、总结及讨论

相关文章

文章推荐