《電子技術(shù)應(yīng)用》
您所在的位置:首頁(yè) > 其他 > 設(shè)計(jì)應(yīng)用 > 基于顏色分割的發(fā)票識(shí)別與自校正系統(tǒng)研究
基于顏色分割的發(fā)票識(shí)別與自校正系統(tǒng)研究
信息技術(shù)與網(wǎng)絡(luò)安全
王 濤
(同濟(jì)大學(xué)浙江學(xué)院 電子與信息工程系,浙江 嘉興314000)
摘要: 傳統(tǒng)基于二值圖像的框線特征提取信息的票據(jù)識(shí)別技術(shù),其結(jié)果存在一定的差錯(cuò)率,針對(duì)此問(wèn)題,提出了基于顏色分割的發(fā)票識(shí)別與驗(yàn)證系統(tǒng)。通過(guò)顏色分割和版式分析,將文字區(qū)域、二維碼及圖章等不同區(qū)域進(jìn)行分割,分區(qū)域進(jìn)行識(shí)別處理后,對(duì)發(fā)票關(guān)鍵信息進(jìn)行比對(duì)驗(yàn)證。與傳統(tǒng)的票據(jù)識(shí)別技術(shù)相比,該系統(tǒng)不僅可以完成發(fā)票自動(dòng)識(shí)別,還可以結(jié)合二維碼信息進(jìn)行自我驗(yàn)證,提高了發(fā)票識(shí)別信息的準(zhǔn)確性和完整性。
中圖分類(lèi)號(hào): TP311
文獻(xiàn)標(biāo)識(shí)碼: A
DOI: 10.19358/j.issn.2096-5133.2021.05.014
引用格式: 王濤. 基于顏色分割的發(fā)票識(shí)別與自校正系統(tǒng)研究[J].信息技術(shù)與網(wǎng)絡(luò)安全,2021,40(5):80-85.
Research on invoice recognition and self correction system based on color segmentation
Wang Tao
(Department of Electronics and Information Engineering,Tongji Zhejiang College,Jiaxing 314000,China)
Abstract: Aiming at the problem of a certain error rate in the result of the traditional bill recognition technology based on the frame line feature extraction information of the binary image, an invoice recognition and verification system based on color segmentation is proposed. Through color segmentation and layout analysis, the text area, two-dimensional code, and stamps are divided into different areas, and the key information of the invoice is compared and verified after the area is identified. Compared with the traditional bill recognition technologies, this system can not only complete automatic invoice recognition, but also self-verify in combination with two-dimensional code information, which improves the accuracy and completeness of invoice recognition information.
Key words : color segmentation;invoice;two-dimensional code;auto recognition;OCR

0 引言

發(fā)票是企業(yè)經(jīng)營(yíng)或人們?nèi)粘OM(fèi)生活中不可或缺的一部分。面對(duì)日益增長(zhǎng)的發(fā)票管理需求,無(wú)論是紙質(zhì)發(fā)票還是電子發(fā)票,企業(yè)或個(gè)人都需要在發(fā)票信息的錄入、存儲(chǔ)及后續(xù)管理上花費(fèi)很多時(shí)間。因此,應(yīng)用現(xiàn)代技術(shù)對(duì)發(fā)票內(nèi)容信息進(jìn)行自動(dòng)掃描識(shí)別并提取成為財(cái)務(wù)會(huì)計(jì)、計(jì)算機(jī)和軟件應(yīng)用等多個(gè)領(lǐng)域共同希望解決的課題。何文琦[1]在分析了高校財(cái)務(wù)報(bào)銷(xiāo)難題后,提出了直接采用OCR技術(shù)對(duì)票據(jù)圖片進(jìn)行識(shí)別,提取發(fā)票中的關(guān)鍵信息,減少網(wǎng)上報(bào)銷(xiāo)過(guò)程中的手工錄入環(huán)節(jié)。王林水[2]等提出了一個(gè)自動(dòng)票據(jù)識(shí)別系統(tǒng),采用圖像預(yù)處理技術(shù)將圖像進(jìn)行二值化,通過(guò)版面分析后進(jìn)行字符識(shí)別。王貴新[3]等人建立了利用隱態(tài)馬爾可夫模型(HMMs)的銀行票據(jù)識(shí)別系統(tǒng),系統(tǒng)首先通過(guò)光電掃描設(shè)備將用戶填寫(xiě)的票據(jù)掃描成灰度圖像,然后去掉票據(jù)的底色,使之變?yōu)楹诎讏D像,對(duì)黑白圖像進(jìn)行去噪處理后,再進(jìn)行文字的分割。

縱觀上述文獻(xiàn),現(xiàn)有的研究都是將采集的發(fā)票圖像進(jìn)行二值化處理,忽略掉圖片本身的顏色信息,其次不區(qū)分二維碼、印章等圖片組成,直接采用版式分析的方法或者OCR的方法對(duì)圖片中的文字進(jìn)行識(shí)別,這必然帶來(lái)識(shí)別準(zhǔn)確率的降低。而且上述方法都是對(duì)票面信息進(jìn)行提取,并不進(jìn)行驗(yàn)證,這導(dǎo)致存在最終結(jié)果上的差錯(cuò)率,在實(shí)際使用過(guò)程中還需要輔助人工驗(yàn)證。鑒于此,本文提出通過(guò)顏色分割方法對(duì)發(fā)票圖片進(jìn)行信息分層,得到二維碼、印章區(qū)域和文字區(qū)域,針對(duì)文字區(qū)域按照預(yù)設(shè)的格式進(jìn)行文字識(shí)別,獲得發(fā)票上所記載的發(fā)票代碼、發(fā)票號(hào)碼、開(kāi)票日期、購(gòu)方稅號(hào)、銷(xiāo)方稅號(hào)、金額和稅額等信息;針對(duì)二維碼圖片進(jìn)行自動(dòng)掃描從互聯(lián)網(wǎng)服務(wù)器獲取發(fā)票代碼、發(fā)票號(hào)碼、開(kāi)票日期、購(gòu)方稅號(hào)、銷(xiāo)方稅號(hào)、金額和稅額等信息。然后將兩部分信息進(jìn)行比對(duì)驗(yàn)證發(fā)票的真?zhèn)?。?yàn)證為正確的發(fā)票分別將原始圖片和信息數(shù)據(jù)存入數(shù)據(jù)庫(kù),對(duì)用戶的發(fā)票憑證進(jìn)行統(tǒng)一的信息管理。驗(yàn)證為錯(cuò)誤的信息以二維碼獲取得信息為準(zhǔn)存入數(shù)據(jù)庫(kù),并在數(shù)據(jù)中進(jìn)行標(biāo)記以備后續(xù)查詢。



本文詳細(xì)內(nèi)容請(qǐng)下載:http://ihrv.cn/resource/share/2000003556




作者信息:

王  濤

(同濟(jì)大學(xué)浙江學(xué)院 電子與信息工程系,浙江 嘉興314000)


此內(nèi)容為AET網(wǎng)站原創(chuàng),未經(jīng)授權(quán)禁止轉(zhuǎn)載。