《電子技術應用》
您所在的位置:首頁 > 其他 > 設計應用 > 基于顏色分割的發(fā)票識別與自校正系統(tǒng)研究
基于顏色分割的發(fā)票識別與自校正系統(tǒng)研究
信息技術與網(wǎng)絡安全
王 濤
(同濟大學浙江學院 電子與信息工程系,浙江 嘉興314000)
摘要: 傳統(tǒng)基于二值圖像的框線特征提取信息的票據(jù)識別技術,其結果存在一定的差錯率,針對此問題,提出了基于顏色分割的發(fā)票識別與驗證系統(tǒng)。通過顏色分割和版式分析,將文字區(qū)域、二維碼及圖章等不同區(qū)域進行分割,分區(qū)域進行識別處理后,對發(fā)票關鍵信息進行比對驗證。與傳統(tǒng)的票據(jù)識別技術相比,該系統(tǒng)不僅可以完成發(fā)票自動識別,還可以結合二維碼信息進行自我驗證,提高了發(fā)票識別信息的準確性和完整性。
中圖分類號: TP311
文獻標識碼: A
DOI: 10.19358/j.issn.2096-5133.2021.05.014
引用格式: 王濤. 基于顏色分割的發(fā)票識別與自校正系統(tǒng)研究[J].信息技術與網(wǎng)絡安全,2021,40(5):80-85.
Research on invoice recognition and self correction system based on color segmentation
Wang Tao
(Department of Electronics and Information Engineering,Tongji Zhejiang College,Jiaxing 314000,China)
Abstract: Aiming at the problem of a certain error rate in the result of the traditional bill recognition technology based on the frame line feature extraction information of the binary image, an invoice recognition and verification system based on color segmentation is proposed. Through color segmentation and layout analysis, the text area, two-dimensional code, and stamps are divided into different areas, and the key information of the invoice is compared and verified after the area is identified. Compared with the traditional bill recognition technologies, this system can not only complete automatic invoice recognition, but also self-verify in combination with two-dimensional code information, which improves the accuracy and completeness of invoice recognition information.
Key words : color segmentation;invoice;two-dimensional code;auto recognition;OCR

0 引言

發(fā)票是企業(yè)經(jīng)營或人們日常消費生活中不可或缺的一部分。面對日益增長的發(fā)票管理需求,無論是紙質發(fā)票還是電子發(fā)票,企業(yè)或個人都需要在發(fā)票信息的錄入、存儲及后續(xù)管理上花費很多時間。因此,應用現(xiàn)代技術對發(fā)票內容信息進行自動掃描識別并提取成為財務會計、計算機和軟件應用等多個領域共同希望解決的課題。何文琦[1]在分析了高校財務報銷難題后,提出了直接采用OCR技術對票據(jù)圖片進行識別,提取發(fā)票中的關鍵信息,減少網(wǎng)上報銷過程中的手工錄入環(huán)節(jié)。王林水[2]等提出了一個自動票據(jù)識別系統(tǒng),采用圖像預處理技術將圖像進行二值化,通過版面分析后進行字符識別。王貴新[3]等人建立了利用隱態(tài)馬爾可夫模型(HMMs)的銀行票據(jù)識別系統(tǒng),系統(tǒng)首先通過光電掃描設備將用戶填寫的票據(jù)掃描成灰度圖像,然后去掉票據(jù)的底色,使之變?yōu)楹诎讏D像,對黑白圖像進行去噪處理后,再進行文字的分割。

縱觀上述文獻,現(xiàn)有的研究都是將采集的發(fā)票圖像進行二值化處理,忽略掉圖片本身的顏色信息,其次不區(qū)分二維碼、印章等圖片組成,直接采用版式分析的方法或者OCR的方法對圖片中的文字進行識別,這必然帶來識別準確率的降低。而且上述方法都是對票面信息進行提取,并不進行驗證,這導致存在最終結果上的差錯率,在實際使用過程中還需要輔助人工驗證。鑒于此,本文提出通過顏色分割方法對發(fā)票圖片進行信息分層,得到二維碼、印章區(qū)域和文字區(qū)域,針對文字區(qū)域按照預設的格式進行文字識別,獲得發(fā)票上所記載的發(fā)票代碼、發(fā)票號碼、開票日期、購方稅號、銷方稅號、金額和稅額等信息;針對二維碼圖片進行自動掃描從互聯(lián)網(wǎng)服務器獲取發(fā)票代碼、發(fā)票號碼、開票日期、購方稅號、銷方稅號、金額和稅額等信息。然后將兩部分信息進行比對驗證發(fā)票的真?zhèn)?。驗證為正確的發(fā)票分別將原始圖片和信息數(shù)據(jù)存入數(shù)據(jù)庫,對用戶的發(fā)票憑證進行統(tǒng)一的信息管理。驗證為錯誤的信息以二維碼獲取得信息為準存入數(shù)據(jù)庫,并在數(shù)據(jù)中進行標記以備后續(xù)查詢。



本文詳細內容請下載:http://ihrv.cn/resource/share/2000003556




作者信息:

王  濤

(同濟大學浙江學院 電子與信息工程系,浙江 嘉興314000)


此內容為AET網(wǎng)站原創(chuàng),未經(jīng)授權禁止轉載。