劉楊
?。ㄖ袊V業(yè)大學 信息與電氣工程學院,江蘇 徐州 221116)
摘要:針對復雜場景下,由于文字背景復雜性而帶來的文字定位不準確的問題,提出了一種Radon傾斜校正與MSER(最大穩(wěn)定極值區(qū)域)結合的算法,基于該算法識別出文字在所處復雜背景中的位置。首先,對圖像進行預處理,采用Canny算子對圖像進行邊緣檢測,并利用Radon變換對傾斜圖像進行校正。然后通過二進小波變換對圖像進行增強處理,去除噪聲。最后提取MSER,經過粗處理、細處理后,檢測出文本所處位置。實驗結果表明,基于Radon傾斜校正與MSER結合的方法,能夠有效提高文本定位的準確率。
關鍵詞:Radon傾斜校正;Canny算子;二進小波變換;最大極值區(qū)域;文本定位
0引言
對于簡單背景中的文字(如文檔圖像),其布局設計是相對固定的,方便讀者閱讀,降低了文本區(qū)域分割的難度[1]。
復雜場景中,存在著各種豐富的信息,如車牌號、指示牌等。因此獲取復雜場景下的文本區(qū)域位置,有利于有效信息的提取。然而,由于光照、拍攝角度、背景過于復雜等原因,復雜場景下的文本定位與文字識別,相對于簡單的背景,實現的難度更高,且識別的準確度較低。
1相關研究
文本定位算法,主要包括基于連通域的定位方法、基于紋理特征的定位方法和基于邊緣特征的定位方法。基于上述方法,人們做了大量的研究與應用[2-8]。然而上述方法在復雜場景中,存在文本定位精度不高、算法運行較慢等缺點。正是基于上述分析,提出了本文的定位算法。
2文字定位算法
2.1算法設計
采用Radon傾斜校正與連通域分析相結合的算法對復雜場景中的文字進行定位。文字定位算法流程圖如圖1所示。
本文算法的文字闡述如下:首先對圖像進行預處理。由于拍攝角度的問題,所獲得的圖像或多或少會有一定的傾斜,所以利用Radon傾斜校正,檢測水平邊和垂直邊,得到校正后的圖像。
預處理之后得到的仍為彩色圖像,且Radon傾斜校正中利用了Canny邊緣檢測算子,產生了噪聲,造成圖像部分信息的丟失。所以需要對圖像進行增強處理,即利用二進小波變換處理圖像。圖像增強處理之后,需要對圖像進行MSER提取,然后再進行粗處理、細處理,最后通過連通域分析,得到文本區(qū)域在圖像中所處的位置。
2.2Radon傾斜校正
Radon傾斜校正對幾何旋轉、JPEG壓縮、濾波等有較好的魯棒性[9]。本文采用Canny算子先對灰度化處理后的圖像進行水平和垂直兩個方向上的邊緣檢測[10]。經過預處理后,進行Radon傾斜校正。
2.3基于二進小波變換的圖像增強算法
經過圖像傾斜校正處理后,圖像不可避免地出現了噪聲。為了增加文本區(qū)域定位的準確率,采用二進小波變換算法對圖像進行增強處理[11]。每層的小波分解需要將待分解圖像分解為:水平、垂直方向均是低頻分量,水平低頻、垂直高頻,水平高頻、垂直低頻,水平與垂直均是高頻分量的4個子帶圖像。并將這4個子帶圖像分別記為:LL、LH、HL、HH。
二維二進小波變換的重構公式:
在圖像處理過程中,增強系數可以由圖像的噪聲水平與感興趣細節(jié)所在的尺度來進行選擇。設增強系數為Wj,i,加入該系數后,重構公式變換為:
其中,j為尺度系數,i表示LH、HL、HH三個圖像,可取值為1,2,3。
利用二進小波對圖像進行增加處理的主要步驟有:
?。?)基于a′trous算法,對圖像進行小波分解。
?。?)引入增強系數Wj,i,得到每層的二進小波系數,然后按如下公式變換:
?。?)將得到的小波系數進行逆二進小波變換,獲得增強處理后的圖像。
2.4基于MSER(最大極值穩(wěn)定區(qū)域)算法進行文本定位
通過二進小波,圖像質量有了明顯改善。在這之后,通過MSER算法對圖像中的文本區(qū)域進行定位。
2.4.1MSER提取
MSER算法包括MSER+和MSER-兩個區(qū)域。添加新增像素點時,判斷其屬于哪個區(qū)域,并將其合并到該區(qū)域中。當像素點越來越多時,區(qū)域不斷增大并彼此合并,然后根據最大穩(wěn)定條件來判斷該區(qū)域是否為最大極值穩(wěn)定區(qū)域[12]。
2.4.2粗處理
通過對MSER的提取,圖像中出現多個MSER。計算出每一個MSER的外界矩形的位置及其高度,同時分別將這些MSER歸類于對應的MSER+、MSER-。由于復雜場景中,字符分布同樣符合水平連續(xù)間隔的特性,所以這里采用參考文獻[13]中的粗處理方法。
先分析出每兩個MSER的位置關系,設提取到的MSER個數為N,則可以得到N×N的矩陣。若第i個MSER到第j個MSER間的中心距離滿足條件:
則將M[i][j]和M[j][i]的值設為1。
其中,verticalDistance和horizontalDistance分別表示垂直距離和水平距離。maxPlateWidth和maxPlateHeight分別表示文本區(qū)域可能的最大寬高。
根據上述分析,所求的候選區(qū)域即為N×N矩陣右上角所有的四領域連通點對應的MSER。
2.4.3細處理
對得到的結果進行連通域分析。圖像中有多個矩形候選區(qū)域,由先驗知識設定以下限制:
?。?)由于現實中字符數都比較多,字符數小于等于2個時,認定為非文本區(qū)域,將其剔除;
?。?)將前景點像素個數與候選區(qū)中像素點個數之比大于50%的,判斷為非文本區(qū)域,同樣將其剔除;
?。?)候選區(qū)域的寬高之比在120~20之間的,視為非文本區(qū),需要剔除。
3仿真環(huán)境與實驗結果及分析
利用MATLAB仿真平臺,對本文提出的算法進行仿真。圖像經過本文算法處理的每一步過程如圖2~圖7所示。
4結束語
針對復雜場景下文本區(qū)域定位精度不夠的情況,本文提出了基于Radon傾斜校正與MSER相結合的算法,能降低因拍攝角度不同而對定位精度造成的影響,采用二進小波變換算法對圖像進行增強處理,進一步消除噪聲影響,最后利用MSER算法,快速有效地定位出了文本所在區(qū)域。文本區(qū)域的高效定位,有利于后續(xù)文本識別準確度的提高。
參考文獻
?。?] 賈文靜,曾超,敖永霞,等.室外場景中標識牌文字的檢測與提取技術綜述[J].云南民族大學學報(自然學科版),2010,19(3): 157-161. [2] 王靜,田洋洋,皇甫海燕.基于連通域閾值的自然場景文本圖像分割技術[J].新疆師范大學學報(自然科學版),2015,34(1):12-15.
[3] MATAS J, CHUM O, URBAN M, et al. Robust widebaseline stereo from maximally stable external regions[C].Proceedings of the British Machine Vision Conference, Cardiff, UK, 2002:384 393.
?。?] 莫會宇,王祝萍.一種結合MSER與SIFT算子的特征檢測方法[J]. 東華大學學報(自然科學版),2011,37(5):624-628.
[5] BAI Y P. BP network based on handwritten digital image feature extraction[J]. Advances in Applied Mathematics, 2014, 3(2):104-111.
?。?] 王建,周源華.一種基于紋理能量的JPEG圖像文本定位算法[J].上海交通大學學報,2004,38(9):1492-1495.
?。?] 何立強,劉浩,陳永.邊緣與灰度檢測相結合的場景圖像文本定位[J].中國圖象圖形學報,2013,18(2):1601-1609.
?。?] 賈冬勤,王洪元,程起才.基于自適應閾值Canny算子的視頻文本定位方法[J].常州大學學報(自然科學版),2014,26(1):47-52.
[9] 何冰, 王晅, 趙杰. 基于Radon變換的抗旋轉攻擊零水印算法[J]. 計算機工程, 2009, 35(16):128-129.
?。?0] 陳宏希.基于邊緣保持平滑濾波的Canny算子邊緣檢測[J].蘭州交通大學學報,2006,25(1):86-90.
?。?1] 吐爾洪江,艾斯卡爾,吾吉買買提,等. 基于二進小波變換的增強技術[J].新疆師范大學學報(自然科學版),2006,25(4):6-13.
[12] 肖誠求,吉立新,高超,等.基于樹修剪和多特征融合的場景文本檢測[J].信息工程大學學報,2015,16(5):590-595.
?。?3] 肖意,姜軍.基于最大穩(wěn)定極值區(qū)域的車牌定位與字符分割[J].計算機與數字工程,2015,43(12):2272-2274.