一个双剑合璧的 国有大行OCR 进化论 样本 (一个双剑合璧多少钱)

文章编号:36532 资讯动态 2024-11-30 腾讯优图AI国有银行

国有大行OCR「进化论」:一个双剑合璧的「样本」

面对版式不固定、特殊字符

定制化OCR「不灵了」

在银行这片票据“集散地”上,OCR并非新鲜事物。

早在2017、2018年,随着银行各业务线数字化转型提速,涉及凭证票证类别的需求不断增加,各大银行就将大量定制化OCR模型引入业务系统。

这让原本全凭“手工劳作”的票据录入,搭乘上效率“直升机”,冲破了票据处理的效率屏障。

国有大行探索OCR的时间则更早。

2013年,在数字化号角还未吹得像今天这般响亮时,某国有大行便成立专门的技术研发团队,完成了OCR技术从0到1的探索。遵照“两录一校”的原则,原来需由两位录入员分别录入凭证信息的工作,随着OCR技术应用,替换成了一位人工录入,一位OCR录入,录入人员立马减半。

不过,随着在OCR领域的深入探索,这家大型银行也发现,现有OCR技术能识别身份证、银行卡等证件、增值税专用发票、增值税普通发票等有固定版式、文档相对简单的内容,但在面对银行许多长尾场景下偏复杂的识别时,就容易无能为力。

特别是遇到以下两种情况:第一票据版式不固定、样本量较少;第二文档中含有手写体、中英韩法等多种语言、特殊字符等,识别准确率大大降低。

过往,为应对这些棘手问题,他们只能在前端继续投入大量人力进行录入和校验,而在后端,则增加开发人员,对新出现的版式进行模型的重新配置。

众所周知,银行票据种类、版式多如牛毛,开发人员不断“打补丁”的方式也只是杯水车薪、隔靴搔痒。

腾讯云售前架构师阿凯告诉,今年年初,他与这家国有大行研发中心负责OCR的项目经理沟通时发现,对方已经围绕OCR的整体研发,打造了一支非常专业的团队。

到底如何提升OCR的能力,使其能对除固定版式、常规文档之外的版式、信息进行识别提取,并直接录入,且保证识别准确率?

今年年初,腾讯云副总裁、腾讯优图实验室总经理吴运声去到了银行,与对方金融科技院院长见了一面,让这一问题有了新的解法。

多模态融合技术

提升OCR模型泛化能力

事实上,腾讯优图也一直在尝试攻克版式不固定、识别准确性的问题。

去年到今年,他们在OCR技术上发表了一系列的论文。其中关注复杂场景文档信息提取的有三篇,分别着眼在大规模多模态文档预训练模型、泛化版式文档信息提取、表格等复杂关系提取。直面挑战,攻克业界难题。

这里需理解一下多模态和单一模态。 多模态 是融合视觉信息、语义信息、布局排版信息等单一模态的集合体。腾讯优图在多模态文档预训练的基础上,进一步统一了文档结构化信息提取范式,形成智能结构化基础模型,单一模型支持5000种以上版式。

就好比培养人的运动技能,基于常规多模态进行大规模训练的模型,只是针对一项基本能力,比如说腿部力量,进行重点训练;而 基于智能结构化基础模型,则是提前教会你足球、篮球、网球多项等运动的关键动作,这样人们就能在日常生活中参与不同的运动。

放在金融文档识别场景中,基于这种方式训练出来的模型,泛化能力得到了极大提升,不论是银行单据、票证、凭证等,它都能进行高精度的信息提取。

而这也恰恰解决了该银行一直以来的困扰。

今年年初,在双方高层进行沟通后的短短一个月内,该银行就决定引入腾讯云TI-OCR产品,基于腾讯优图实验室在OCR领域多年的积累,来对银行业务处理票据录入过程中的十大重点场景进行优化升级,并把这一项目名称取名为“多模态融合应用于计算机视觉”。

腾讯云产品架构师阿凯表示:“不论是信息提取还是表格还原,都用了多模态技术,这也给整个项目定调。”

成立联合实验室

让技术与业务更相融

以往,腾讯云往往是通过向客户提供算法包、训练平台等原子化产品进行合作。但事实上,若要真正和客户的实际业务相结合,不免还需涉及一些工程业务方面的开发。

为让技术与业务更相融合,双方决定成立联合实验室,探索更深入的合作。然而,刚开展合作就遇到的一个难题: 银行场景复杂多样,到底选择从哪一个场景开始下手?

腾讯优图算法研究员浩宇印象很深刻:“一开始确定业务场景时,行方一开始邀请我们分析了有差不多上千种场景,并梳理了其中痛点问题。”

通过反复分析,最终双方达成一致,先啃“硬骨头”,决定最先在托管对账单、提单以及集中录入这三个业务场景的结构化识别中用上多模态技术。

“托管对账单、提单这几个场景在业界比较接近天花板的难度。”交付架构师秋健对说。

国有大行OCR「进化论」:一个双剑合璧的「样本」

提单样本图,图源网络

以基金公司托管对账单为例,各家基金公司在银行内部托管一个公共账号,记录了投资人每一时段各基金持有份额和所有交易明细等,以方便投资人定期了解自己的交易情况。

这场景最大的难点有三个:

第一,版式多、样本少。基金公司众多且每家公司的账单版式都不相同,且随着业务扩展或变更,账单板式也在发生变化。此外,也存在一些基金账单比较少的情况,这都十分考验OCR结构化提取模型。

第二,具有表格等复杂关系。多数基金账单都是以表格形式呈现,比如,XX在某年某月某日交易了XX金额,这需要OCR能够从表格里面去提取结构化信息,而这也是目前业界普遍面临的难点。

第三,还存在字段嵌套、容易混淆等问题。比如在基金单交易中,同时存在多个相同形式表格,但表头的时间或含义不同,这要求OCR能够区分出来各种表格对应的具体含义。

国有大行OCR「进化论」:一个双剑合璧的「样本」

从实验室走向实际应用

还有两道坎要跨越

今年四月中旬,腾讯云动身派驻项目经理、算法研究员、交付架构师等项目成员去到该银行,了解其实际业务运行情况,并确定方案进行指导标注。

然后,在合作过程中,他们也发现,OCR技术从实验室走向实际应用时,也还有一些坎需要跨越:

如何让产品更满足业务的需求?

即便是在实验室打磨训练过多次的产品,在遇到复杂的业务场景时,难免还是“不够用”, 需要项目团队在产品实际落地过程中结合业务进一步“查漏补缺”。

浩宇提到,他们在印鉴卡的问题分析过程中就曾遇到过一个类似刮奖的密码验证图层,在单据识别过程中,需验证涂层是否完整,以及识别密码涂层刮开后的文字。“这是我们在实验室中完全没见过的。”

与此同时, 在实验室中对事物的重要性判断,和现实也可能会出现偏差。 比如,实验室更看重如何对表格中的信息进行提取,但在实际业务层面,还需要关注表格信息的含义,比如这是当前的基金交易信息,还是历史交易信息。

双剑合璧

票据识别渐入「无人区」

面对这些分歧,双方共同协商讨论、解决问题也变得十分重要。

国有大行OCR「进化论」:一个双剑合璧的「样本」

腾讯云、优图实验室项目团队交流中

经过半年的接触和交流,交付架构师少凯谈到,整个项目让他感触最深的有三个点,第一是银行的配合和参与,第二是银行的开放心态,第三是银行愿意学习的心态。

拿样本图举例,一般样本图都散落在各个业务部门,开发部门也需要内部协调才能拿到样本图,但银行每一次都会快速响应,及时从业务部门收集样本图。

与此同时,在整个合作过程,该银行也一直强调,这次合作不仅是要获得一套新工具,而且还要让自己内部员工学习如何进行模型训练,以及对模型训练平台有更深入了解,以便未来用到更多的场景中去。

托管对账单这一场景从今年7月份左右开始正式建模,经过双方的反复测试、沟通、改进,其字段识别准确率目前已达90%以上。此外,包括提单、集中录入等9个场景,也将陆续上线。

随着这种多模态技术加速渗透具体业务场景,该银行也初尝数字化的甜头,其前端录入环节将从单OCR录入改为双OCR录入,减少了至少1/3左右的成本投入。

而后端开发上,以前开发人员需花上两三天时间进行新版式的开发,现如今只需要拿几张图进行标注训练,一小时就能够完成整体的训练和上线的流程,极大提升了训练效率,减轻了开发人员负担。

接下来双方也将继续“双剑合璧”,通过联合开发,让票据识别向智能化、自动化迈进,让票据录入逐渐走入“无人区”。

原创文章,未经授权禁止转载。详情见 转载须知 。

全局中部横幅
语文备课大师

语文备课大师,语文备课室,中小学语文备课中心

快印客14

快印客是国内专业二维码应用解决方案服务商,图文快印店加盟行业知名品牌,依托全国广告,印刷,快印,包装企业,在快印店加盟,图文快印连锁加盟,数码快印,人工智能名片,连锁领域具有广泛知名度和影响力的企业。

污水池搅拌器

山东钊喜机械设备有限公司是专业生产污水池搅拌器,减速机机架,侧入式搅拌器,水煤浆搅拌器等产品的厂家。拥有先进的生产设备,产品质量有保障,性能可靠,规格齐全,价格合理。欢迎新老客户来电垂询!

优美教程吧

优美教程吧集知识和资料分享平台,专业提供优质实用文档、范文与写作范例。

开关柜无线测温系统

安科瑞工厂能耗管理事业部主要产品有开关柜无线测温系统、宿舍用电管理终端、变电所运维云平台、电力运维系统等、物联网电表、安全用电监控模块,我公司的产品质量可靠,同时价格也合理,需要的客户可以联系:021-69153623

轴承回收,回收进口轴承,回收库存积压轴承,回收轴承,回收拆机轴承,回收废旧轴承,收购轴承

庄生轴承回收网专业从事回收轴承,回收进口轴承,回收库存积压轴承,回收废旧轴承,回收拆机轴承,收购轴承及其轴承销售业务。电话:15563517111QQ:370005577

防水隔热涂料

【长佑实力厂家】防水防腐隔热,研发生产,防水隔热涂料,降温20℃,防水10年,外露型,可机器施工,可以DIY,铁锈转化剂,10年不返锈,微信13826962396全国招商,水泥屋面,彩钢瓦屋面

叔叔不约

叔叔不约-匿名聊天是非常受欢迎的随机、匿名交友社区。随机聊天,漂流瓶、同城匹配,快速开始一对一私密聊天。

回转风机

山东济南启正机械工业有限公司是一家集科研、生产、销售和服务于一体的专业气力输送设备制造企业,公司主营:罗茨风机、罗茨鼓风机、曝气风机、回转鼓风机、三叶罗茨风机、回转风机、三叶罗茨鼓风机、经过多年发展,启正机械培养了一支经验丰富、成立了章丘市回转式鼓风机研究所。启正机械产品销住四川、广东、山东等国内三十多个省市及地区,有着良好的企业口碑和产品口碑。价格公道,品质上乘,深受国内外人士的青睐。历经十余年的开拓创新,打造“啟正”罗茨鼓风机高端品牌。

JOLIMARK映美™

映美信息科技有限公司(Jolimark),一直致力于成为中国最具实力的商用外设专业提供商之一。自2000年创建“映美”品牌以来,一直以创建民族品牌发展为目标,并秉承“打印机就是云应用”的企业理念。映美拥有最全的商用针式打印机产品线,并为十二金应用和商用办公提供完整解决方案。映美的全系列商用针式打印机覆盖了微型打印机和80列、136列的平推、滚筒等各种规格的多种型号的产品,能够全方位满足各行业窗口票单打印、专用票据证卡打印、后台高速报表打印的需求(映美官方网)。

珠海禅诚医院【官网】

珠海禅诚医院是珠海市非公立医疗机构之一,热衷于公益慈善事业,也是珠海市医保和工伤保险定点单位。禅诚医院是一家集创伤外科,脊柱科,妇儿科,康复科,眼科等多科室的珠海综合医院。在2017年9月27日,珠海禅诚医院(原延年医院)正式加盟复星医药旗下的“禅医”医院集团,作为集团粤港澳大湾区先锋队,承载佛山复星禅诚医院(广东医科大学非直属附属医院、广州中医药大学佛山临床医学院)卓越的医疗服务理念与精进的医疗技术团队,迈出新的集团化发展道路。

太仓长福公司

太仓长福金属制品专业生产牺牲阳极MGPS防海生物电极ICCP阴极保护尾轴接地装置的厂家超过15年为上千家船东服务。

全局底部横幅