《電子技術(shù)應(yīng)用》
您所在的位置:首頁 > 其他 > 設(shè)計應(yīng)用 > 基于顏色分割的發(fā)票識別與自校正系統(tǒng)研究
基于顏色分割的發(fā)票識別與自校正系統(tǒng)研究
信息技術(shù)與網(wǎng)絡(luò)安全
王 濤
(同濟大學(xué)浙江學(xué)院 電子與信息工程系,浙江 嘉興314000)
摘要: 傳統(tǒng)基于二值圖像的框線特征提取信息的票據(jù)識別技術(shù),其結(jié)果存在一定的差錯率,針對此問題,提出了基于顏色分割的發(fā)票識別與驗證系統(tǒng)。通過顏色分割和版式分析,將文字區(qū)域、二維碼及圖章等不同區(qū)域進行分割,分區(qū)域進行識別處理后,對發(fā)票關(guān)鍵信息進行比對驗證。與傳統(tǒng)的票據(jù)識別技術(shù)相比,該系統(tǒng)不僅可以完成發(fā)票自動識別,還可以結(jié)合二維碼信息進行自我驗證,提高了發(fā)票識別信息的準(zhǔn)確性和完整性。
中圖分類號: TP311
文獻標(biāo)識碼: A
DOI: 10.19358/j.issn.2096-5133.2021.05.014
引用格式: 王濤. 基于顏色分割的發(fā)票識別與自校正系統(tǒng)研究[J].信息技術(shù)與網(wǎng)絡(luò)安全,2021,40(5):80-85.
Research on invoice recognition and self correction system based on color segmentation
Wang Tao
(Department of Electronics and Information Engineering,Tongji Zhejiang College,Jiaxing 314000,China)
Abstract: Aiming at the problem of a certain error rate in the result of the traditional bill recognition technology based on the frame line feature extraction information of the binary image, an invoice recognition and verification system based on color segmentation is proposed. Through color segmentation and layout analysis, the text area, two-dimensional code, and stamps are divided into different areas, and the key information of the invoice is compared and verified after the area is identified. Compared with the traditional bill recognition technologies, this system can not only complete automatic invoice recognition, but also self-verify in combination with two-dimensional code information, which improves the accuracy and completeness of invoice recognition information.
Key words : color segmentation;invoice;two-dimensional code;auto recognition;OCR

0 引言

發(fā)票是企業(yè)經(jīng)營或人們?nèi)粘OM生活中不可或缺的一部分。面對日益增長的發(fā)票管理需求,無論是紙質(zhì)發(fā)票還是電子發(fā)票,企業(yè)或個人都需要在發(fā)票信息的錄入、存儲及后續(xù)管理上花費很多時間。因此,應(yīng)用現(xiàn)代技術(shù)對發(fā)票內(nèi)容信息進行自動掃描識別并提取成為財務(wù)會計、計算機和軟件應(yīng)用等多個領(lǐng)域共同希望解決的課題。何文琦[1]在分析了高校財務(wù)報銷難題后,提出了直接采用OCR技術(shù)對票據(jù)圖片進行識別,提取發(fā)票中的關(guān)鍵信息,減少網(wǎng)上報銷過程中的手工錄入環(huán)節(jié)。王林水[2]等提出了一個自動票據(jù)識別系統(tǒng),采用圖像預(yù)處理技術(shù)將圖像進行二值化,通過版面分析后進行字符識別。王貴新[3]等人建立了利用隱態(tài)馬爾可夫模型(HMMs)的銀行票據(jù)識別系統(tǒng),系統(tǒng)首先通過光電掃描設(shè)備將用戶填寫的票據(jù)掃描成灰度圖像,然后去掉票據(jù)的底色,使之變?yōu)楹诎讏D像,對黑白圖像進行去噪處理后,再進行文字的分割。

縱觀上述文獻,現(xiàn)有的研究都是將采集的發(fā)票圖像進行二值化處理,忽略掉圖片本身的顏色信息,其次不區(qū)分二維碼、印章等圖片組成,直接采用版式分析的方法或者OCR的方法對圖片中的文字進行識別,這必然帶來識別準(zhǔn)確率的降低。而且上述方法都是對票面信息進行提取,并不進行驗證,這導(dǎo)致存在最終結(jié)果上的差錯率,在實際使用過程中還需要輔助人工驗證。鑒于此,本文提出通過顏色分割方法對發(fā)票圖片進行信息分層,得到二維碼、印章區(qū)域和文字區(qū)域,針對文字區(qū)域按照預(yù)設(shè)的格式進行文字識別,獲得發(fā)票上所記載的發(fā)票代碼、發(fā)票號碼、開票日期、購方稅號、銷方稅號、金額和稅額等信息;針對二維碼圖片進行自動掃描從互聯(lián)網(wǎng)服務(wù)器獲取發(fā)票代碼、發(fā)票號碼、開票日期、購方稅號、銷方稅號、金額和稅額等信息。然后將兩部分信息進行比對驗證發(fā)票的真?zhèn)?。驗證為正確的發(fā)票分別將原始圖片和信息數(shù)據(jù)存入數(shù)據(jù)庫,對用戶的發(fā)票憑證進行統(tǒng)一的信息管理。驗證為錯誤的信息以二維碼獲取得信息為準(zhǔn)存入數(shù)據(jù)庫,并在數(shù)據(jù)中進行標(biāo)記以備后續(xù)查詢。



本文詳細(xì)內(nèi)容請下載:http://ihrv.cn/resource/share/2000003556




作者信息:

王  濤

(同濟大學(xué)浙江學(xué)院 電子與信息工程系,浙江 嘉興314000)


此內(nèi)容為AET網(wǎng)站原創(chuàng),未經(jīng)授權(quán)禁止轉(zhuǎn)載。