深源恒际:图层分离技术破解票据类OCR识别难题

作为一种通用技术手段,OCR可以将不可编辑的非结构化文本转换为可编辑的结构化文本,因此在信息采集管理中被广泛应用。例如,在健康险核赔理算环节,要准确理算出赔付金额,理算人员需要基于各类医疗票据获取理算信息,并将信息人工录入理算系统;而更高效的方式是运用OCR技术实现医疗票据信息的自动识别与结构化提取。与传统人工录入相比,OCR识别可减少80%以上的人力作业。

然而,实际落地应用中存在诸多干扰因素,会增加OCR识别难度,影响识别准确率。如票面信息模糊,发票折叠畸变,机打信息与印刷信息重叠、串行等,都会给OCR识别带来极大挑战。

在会计电算化时代,为提高打印输出效率、降低打印机损耗,发票、凭证、报表等会计相关表单大部分采用数据与格式分离的套打方式,即在已印有固定格式的票据模板上打印输出信息。

基于OCR技术完成发票信息的识别提取,通常会遇到以下两个难题:一是套打发票大部分采用针式打印技术,打印效果差、字迹模糊,影响识别准确率。二是即便套用模板格式也难免出现机打信息与印刷信息串行或内容重叠的情形,串行会增加算法提取信息的难度,影响数据结构化;内容重叠造成部分信息被遮挡,在文本检测环节易导致漏检,在文本识别环节容易导致误识。

在相对复杂的应用场景下,通用OCR难以解决套打发票中信息串行或内容覆盖的问题。深源恒际提出以深度学习算法为依托,通过专项训练和自适应提取方法提升算法模型的适应性。基于深度学习算法框架,通过图层分离技术解决票据识别中信息串行、重叠导致的漏检、误识问题,使识别准确率大幅提升。

1. 图层分离:通过大量分析样本数据,提取机打部分与印刷部分的差异化特征,强化特征提取细粒度,基于深度学习方法搭建像素级图层分离模型,实现从原始图像中分离出机打信息与印刷信息,通过图层分离完成信息剥离。

2. 坐标定位:图层分离后,基于图像识别技术获取所有文本条目的坐标信息,通过传统匹配算法完成印刷类文本条目坐标信息与机打类文本条目坐标信息的关联,实现印刷字段信息与机打字段信息的匹配,从而解决信息串行带来的干扰。

3. 双识别模型:针对机打和印刷两类文本信息分别训练算法模型,大幅提升图层分离精确度,降低信息重叠带来的干扰。

图层分离技术突破性地解决了套打发票识别中存在的技术难题,大幅提高了整张发票的识别准确率。在健康险核赔理算场景中,帮助健康险高效提升理算作业效率,优化理赔服务体验。