文獻(xiàn)標(biāo)識(shí)碼: A
DOI: 10.19358/j.issn.2096-5133.2021.05.014
引用格式: 王濤. 基于顏色分割的發(fā)票識(shí)別與自校正系統(tǒng)研究[J].信息技術(shù)與網(wǎng)絡(luò)安全,2021,40(5):80-85.
0 引言
發(fā)票是企業(yè)經(jīng)營(yíng)或人們?nèi)粘OM(fèi)生活中不可或缺的一部分。面對(duì)日益增長(zhǎng)的發(fā)票管理需求,無論是紙質(zhì)發(fā)票還是電子發(fā)票,企業(yè)或個(gè)人都需要在發(fā)票信息的錄入、存儲(chǔ)及后續(xù)管理上花費(fèi)很多時(shí)間。因此,應(yīng)用現(xiàn)代技術(shù)對(duì)發(fā)票內(nèi)容信息進(jìn)行自動(dòng)掃描識(shí)別并提取成為財(cái)務(wù)會(huì)計(jì)、計(jì)算機(jī)和軟件應(yīng)用等多個(gè)領(lǐng)域共同希望解決的課題。何文琦[1]在分析了高校財(cái)務(wù)報(bào)銷難題后,提出了直接采用OCR技術(shù)對(duì)票據(jù)圖片進(jìn)行識(shí)別,提取發(fā)票中的關(guān)鍵信息,減少網(wǎng)上報(bào)銷過程中的手工錄入環(huán)節(jié)。王林水[2]等提出了一個(gè)自動(dòng)票據(jù)識(shí)別系統(tǒng),采用圖像預(yù)處理技術(shù)將圖像進(jìn)行二值化,通過版面分析后進(jìn)行字符識(shí)別。王貴新[3]等人建立了利用隱態(tài)馬爾可夫模型(HMMs)的銀行票據(jù)識(shí)別系統(tǒng),系統(tǒng)首先通過光電掃描設(shè)備將用戶填寫的票據(jù)掃描成灰度圖像,然后去掉票據(jù)的底色,使之變?yōu)楹诎讏D像,對(duì)黑白圖像進(jìn)行去噪處理后,再進(jìn)行文字的分割。
縱觀上述文獻(xiàn),現(xiàn)有的研究都是將采集的發(fā)票圖像進(jìn)行二值化處理,忽略掉圖片本身的顏色信息,其次不區(qū)分二維碼、印章等圖片組成,直接采用版式分析的方法或者OCR的方法對(duì)圖片中的文字進(jìn)行識(shí)別,這必然帶來識(shí)別準(zhǔn)確率的降低。而且上述方法都是對(duì)票面信息進(jìn)行提取,并不進(jìn)行驗(yàn)證,這導(dǎo)致存在最終結(jié)果上的差錯(cuò)率,在實(shí)際使用過程中還需要輔助人工驗(yàn)證。鑒于此,本文提出通過顏色分割方法對(duì)發(fā)票圖片進(jìn)行信息分層,得到二維碼、印章區(qū)域和文字區(qū)域,針對(duì)文字區(qū)域按照預(yù)設(shè)的格式進(jìn)行文字識(shí)別,獲得發(fā)票上所記載的發(fā)票代碼、發(fā)票號(hào)碼、開票日期、購(gòu)方稅號(hào)、銷方稅號(hào)、金額和稅額等信息;針對(duì)二維碼圖片進(jìn)行自動(dòng)掃描從互聯(lián)網(wǎng)服務(wù)器獲取發(fā)票代碼、發(fā)票號(hào)碼、開票日期、購(gòu)方稅號(hào)、銷方稅號(hào)、金額和稅額等信息。然后將兩部分信息進(jìn)行比對(duì)驗(yàn)證發(fā)票的真?zhèn)?。?yàn)證為正確的發(fā)票分別將原始圖片和信息數(shù)據(jù)存入數(shù)據(jù)庫,對(duì)用戶的發(fā)票憑證進(jìn)行統(tǒng)一的信息管理。驗(yàn)證為錯(cuò)誤的信息以二維碼獲取得信息為準(zhǔn)存入數(shù)據(jù)庫,并在數(shù)據(jù)中進(jìn)行標(biāo)記以備后續(xù)查詢。
本文詳細(xì)內(nèi)容請(qǐng)下載:http://ihrv.cn/resource/share/2000003556
作者信息:
王 濤
(同濟(jì)大學(xué)浙江學(xué)院 電子與信息工程系,浙江 嘉興314000)