文獻標識碼: A
DOI: 10.19358/j.issn.2096-5133.2021.05.014
引用格式: 王濤. 基于顏色分割的發(fā)票識別與自校正系統(tǒng)研究[J].信息技術與網(wǎng)絡安全,2021,40(5):80-85.
0 引言
發(fā)票是企業(yè)經(jīng)營或人們日常消費生活中不可或缺的一部分。面對日益增長的發(fā)票管理需求,無論是紙質發(fā)票還是電子發(fā)票,企業(yè)或個人都需要在發(fā)票信息的錄入、存儲及后續(xù)管理上花費很多時間。因此,應用現(xiàn)代技術對發(fā)票內容信息進行自動掃描識別并提取成為財務會計、計算機和軟件應用等多個領域共同希望解決的課題。何文琦[1]在分析了高校財務報銷難題后,提出了直接采用OCR技術對票據(jù)圖片進行識別,提取發(fā)票中的關鍵信息,減少網(wǎng)上報銷過程中的手工錄入環(huán)節(jié)。王林水[2]等提出了一個自動票據(jù)識別系統(tǒng),采用圖像預處理技術將圖像進行二值化,通過版面分析后進行字符識別。王貴新[3]等人建立了利用隱態(tài)馬爾可夫模型(HMMs)的銀行票據(jù)識別系統(tǒng),系統(tǒng)首先通過光電掃描設備將用戶填寫的票據(jù)掃描成灰度圖像,然后去掉票據(jù)的底色,使之變?yōu)楹诎讏D像,對黑白圖像進行去噪處理后,再進行文字的分割。
縱觀上述文獻,現(xiàn)有的研究都是將采集的發(fā)票圖像進行二值化處理,忽略掉圖片本身的顏色信息,其次不區(qū)分二維碼、印章等圖片組成,直接采用版式分析的方法或者OCR的方法對圖片中的文字進行識別,這必然帶來識別準確率的降低。而且上述方法都是對票面信息進行提取,并不進行驗證,這導致存在最終結果上的差錯率,在實際使用過程中還需要輔助人工驗證。鑒于此,本文提出通過顏色分割方法對發(fā)票圖片進行信息分層,得到二維碼、印章區(qū)域和文字區(qū)域,針對文字區(qū)域按照預設的格式進行文字識別,獲得發(fā)票上所記載的發(fā)票代碼、發(fā)票號碼、開票日期、購方稅號、銷方稅號、金額和稅額等信息;針對二維碼圖片進行自動掃描從互聯(lián)網(wǎng)服務器獲取發(fā)票代碼、發(fā)票號碼、開票日期、購方稅號、銷方稅號、金額和稅額等信息。然后將兩部分信息進行比對驗證發(fā)票的真?zhèn)?。驗證為正確的發(fā)票分別將原始圖片和信息數(shù)據(jù)存入數(shù)據(jù)庫,對用戶的發(fā)票憑證進行統(tǒng)一的信息管理。驗證為錯誤的信息以二維碼獲取得信息為準存入數(shù)據(jù)庫,并在數(shù)據(jù)中進行標記以備后續(xù)查詢。
本文詳細內容請下載:http://ihrv.cn/resource/share/2000003556
作者信息:
王 濤
(同濟大學浙江學院 電子與信息工程系,浙江 嘉興314000)