文獻標識碼: A
DOI: 10.19358/j.issn.2096-5133.2021.08.014
引用格式: 張辰,陳陽. 基于模板匹配OCR的報告自動歸檔系統(tǒng)研究[J].信息技術(shù)與網(wǎng)絡(luò)安全,2021,40(8):84-89.
0 引言
光學字符識別(Optical Character Recognition,OCR)是指對文本資料的圖像文件進行分析識別處理,獲取文字及版面信息的過程。亦即將圖像中的文字進行識別,并以文本的形式返回。其在文檔歸檔應(yīng)用背景下具有廣闊的市場前景。OCR字符識別技術(shù)經(jīng)過多年發(fā)展,已有LeNet[1]、RRPN[2]、DMPNet[3]、CTPN[4]等OCR網(wǎng)絡(luò)結(jié)構(gòu)被提出。其中,CTPN是目前應(yīng)用最廣的文本檢測模型之一。其基本假設(shè)是單個字符相較于異質(zhì)化程度更高的文本行更容易被檢測,因此先對單個字符進行類似R-CNN的檢測,并在檢測網(wǎng)絡(luò)中加入雙向LSTM[5],使檢測結(jié)果形成序列提供了文本的上下文特征,便可以將多個字符進行合并得到文本行。LeNet網(wǎng)絡(luò)提出時間較早,在銀行票據(jù)手寫體字符識別方面有著長期的應(yīng)用。上述網(wǎng)絡(luò)結(jié)構(gòu)可以在通用背景下有效識別場景中的字符,對于非垂直文本也能進行檢測。對于大多數(shù)OCR的應(yīng)用場景,并不需要對圖片中的所有字符進行識別,往往只需要對部分ROI區(qū)域的字符進行檢測,但OCR技術(shù)對ROI區(qū)域的位移與旋轉(zhuǎn)適應(yīng)性較差,需要訓(xùn)練單獨的網(wǎng)絡(luò)來對ROI區(qū)域進行定位。機器視覺技術(shù)在制造業(yè)領(lǐng)域有著廣泛的應(yīng)用,特別是在工件定位、視覺測量等方面有大量成熟的算法,其中,模板匹配算法則針對工業(yè)定位[6-7]的應(yīng)用背景,提出了基于灰度[8]、邊緣[9]、變換域[10]的模板匹配算法,能適應(yīng)各種工業(yè)定位需求[11-15]。
本文詳細內(nèi)容請下載:http://ihrv.cn/resource/share/2000003731
作者信息:
張 辰1,陳 陽2
(1.廣東省建設(shè)工程質(zhì)量安全檢測總站有限公司,廣東 廣州510500;
2.廣東省建筑科學研究院集團股份有限公司,廣東 廣州510500)