信用报告OCR:结构化提取+智能解析 两步实现授信审核智能化

    随着各类经济活动的信用关系越来越复杂,建立和完善征信体系成为信用经济正常运转的必要条件。在我国,央行征信中心作为专门的第三方征信服务机构,为个人或企业建立信用档案”(个人信用报告/企业信用报告),为商业银行及其他专业化授信机构提供信用信息共享,有效降低交易过程各参与方之间的信息不对称,以及信息不对称带来的交易风险。

    信用报告是信贷服务中掌握授信对象信用状况的重要参考资料,涉及贷前贷后环节。接到贷款申请后,放贷机构可以根据报告中历史还款情况来判断用户的还款意愿,根据已借笔数、对外担保情况等来决定是否提供贷款、提供多少额度;在提供贷款后,同样通过查看信用报告来决定是否增加授信额度或提前收回贷款。

    通常情况下,授信机构主要通过以下途径获取信用报告:一是直联中国人民银行征信中心数据接口,在获得用户授权的情况下直接调用、查询其信用报告; 二是用户向平台提交信用报告扫描件或影印件,再由平台指派人力把报告信息录入风控系统。

    目前,仅少数持牌金融机构如大型商业银行、保险公司等可基于调用数据接口的方式直接查询用户信用报告,其它大部分非银行金融机构如商业银行下设的非持牌附属机构、小额信贷公司、专业助贷机构等只能通过人工录入的方式获取用户信用信息。

    然而,随着智能风控的深入发展,人工录入成本高、响应慢,无法顺应智能风控的发展趋势。一是信用报告信息量巨大,少则几页多则几十页,由上千个字段内容构成,人工录入耗时费力,且出错率高,存在一定的隐性风险;二是由人工参与的作业环节难免存在一定的道德风险,容易被串联骗贷行为钻了空子。

    由此,深源恒际面向无法直接查询用户信用报告的非银行金融机构提供征信信息自动化识别与结构化提取解决方案。基于OCR识别技术结合专项训练方法构建的信用报告识别专用模型,自动识别、提取信用报告上的文字信息,并输出结构化文本,帮助非银行金融机构或风控服务企业高效采录用户信用信息,加快业务审核流程,优化提升服务体验。

    其中,输入结构化文本的关键在于智能解析。智能解析主要是对已识别的信息进行结构化处理的过程,最终以可解析的数据格式(如JSON)返回结构化文本,便于将信息同步给智能风控系统,进而完成下一步的信用风险评估。

    以个人信用报告为例,个人信用报告分为本人版与授信机构版。其中,本人版是指用户本人通过征信中心临柜申请或通过互联网在线申请等途径查询到个人信用报告,提供给授信机构的文档形式多为纸质版扫描件或电子文档;针对本人版个人信用报告的智能解析,主要是基于OCR技术对所识别、提取的文字信息进行结构化输出的过程,最终返回JSON格式的结构化文本,向智能风控系统输入有效信息,为风险把控提供重要参考。

    授信机构版则是已接入央行征信中心数据接口的金融机构经用户授权后自主查询获得的个人信用报告,通常获得的文档为HTML格式文本,而HTML格式文本无法直接输入智能风控系统;针对授信机构版个人信用报告的智能解析,主要是将已获得的HTML文本解析为JSON格式的结构化文本,并同步到智能风控系统,为风险把控提供重要参考。

    基于OCR识别与智能解析,信用报告OCR服务帮助授信机构高效获得数字化的征信信息,从而加快授信审核进程,提升业务服务效率。目前,就识别精度而言,OCR字段识别准确率超过99%;就识别速度而言,单页识别提取用时平均3秒,单份报告识别用时平均1分钟左右,相较人工作业耗时,信息采录效率显著提升。对授信机构而言,借力专业化、自动化的信息提取服务,信贷服务的交易时间将大幅缩短,这有利于信贷服务更广泛地触达用户,进而助推普惠金融发展进程。

- FIND US -

  1. 「信用报告OCR」

https://market.baidu.com/detail/9cfb1e70-65f6-48c0-81ce-ebc90e3bc4b4

  1. 「智能解析」

https://market.baidu.com/detail/f446c2dd-604a-4186-9b7f-70825e9697b1