摘 要: 在分析圖像中字符特點的基礎(chǔ)上,研究其在小波變換域中的特征,依據(jù)這些特征,分析頻率加權(quán)閾值法和利用塊間信息的平均閾值法的優(yōu)缺點,將二者結(jié)合進(jìn)行圖像字符定位。實驗表明,該算法可進(jìn)行圖像中的字符定位,同時又可以彌補(bǔ)兩種方法定位時的不足。
關(guān)鍵詞: 字符定位; 小波變換; 加權(quán)系數(shù)
隨著計算機(jī)性能的提升和數(shù)字化存儲技術(shù)的不斷發(fā)展,從海量的視頻資料中找到想要的信息已經(jīng)成為十分迫切的需求,所以對視頻內(nèi)容的分析、建立基于內(nèi)容的索引以及視頻內(nèi)容的結(jié)構(gòu)化描述成為近年來研究的熱點。字符的分析與處理是視頻分析的重要內(nèi)容,進(jìn)行圖像字符分析處理的基礎(chǔ)就是探測圖像中字符的出現(xiàn)及定位其準(zhǔn)確坐標(biāo)。
目前對圖像中的字符定位方法大致可以分為兩大類:一類是在原像素域內(nèi)的處理方法[1-2] ,其主要是根據(jù)字符的紋理特征或結(jié)構(gòu)特征來定位字符;另一類是基于壓縮域的處理方法[3-5],主要是DCT變換域和小波域,主要依據(jù)字符的筆劃邊緣在頻域中表現(xiàn)較大的系數(shù)和方向性,利用這些系數(shù)來進(jìn)行字符定位。在壓縮域中,這些方法能夠充分利用圖像中的字符在頻率變換域中的特點,且只需要進(jìn)行簡單的解碼,其處理的速度較快,具有較高的正確檢測率,是目前研究的熱點。參考文獻(xiàn)[6]提出了小波變換域的圖像字符定位方法,并通過對大量圖像字符定位的研究表明,該方法適應(yīng)性強(qiáng), 但處理背景復(fù)雜的圖像效果稍微差一些。而參考文獻(xiàn)[7]在定位時采用加權(quán)頻率的方法,在對背景復(fù)雜度高的圖片進(jìn)行定位時有較好的效果,但是該方法處理一些較小的英文字符時漏檢較多。本文在分析參考文獻(xiàn)[6-7]的基礎(chǔ)上,先對小波變換系數(shù)進(jìn)行非線性加權(quán),然后再采用自適應(yīng)動態(tài)閾值及結(jié)合塊間信息來提高檢測的正確率及算法的適應(yīng)性。
1 小波變換域能量表征及分類
字符可能出現(xiàn)在圖像和視頻中的任何地方,但并不是所有出現(xiàn)的字符對視頻和圖像都有內(nèi)容上的相關(guān)。 將視頻中出現(xiàn)的字符分為人工字符和背景字符兩類[1]。人工字符本身有特定的筆劃結(jié)構(gòu),在空間上表示為水平、豎直以及對角線方向的筆劃。字符灰度變化不大,但邊緣變化較大,有突出的水平、豎直以及斜向的紋理特征。本文主要研究人工字符定位,利用人工字符的這些特征可以將字符區(qū)間和背景分開,對字符進(jìn)行定位。
對圖像信號進(jìn)行小波變換,可以將其分解為平均部分、垂直細(xì)節(jié)部分、水平細(xì)節(jié)部分以及對角線細(xì)節(jié)部分,這些剛好對應(yīng)于圖像中字符的筆劃特點。在小波變換域上進(jìn)行字符定位的主要步驟就是給出標(biāo)志字符中筆劃走向?qū)?yīng)的頻率變化的能量。設(shè)圖像f(i,j)經(jīng)小波變換后對應(yīng)的小波系數(shù)為C(i,j),如圖1所示。
3 實驗結(jié)果及討論
實驗中選擇的圖像分別來自視頻截圖以及Web圖像等,水平和豎直方向的實驗參數(shù)k取0.2~0.23之間的值效果較好,對角線方向k取0.13效果較好。三種方法的檢測率比較結(jié)果如表1所示。
部分實驗定位效果如圖6所示, 實驗中選擇的圖像共包含360 個字符區(qū),其中實際檢測到的字符區(qū)332個,正確檢測率為92.5%;未檢測到的字符區(qū)28個,漏檢率為5.8%;檢測到的錯誤字符區(qū)49個,錯誤檢測率為13.7%。參考文獻(xiàn)[6]的方法主要針對背景復(fù)雜的圖像,采用平均能量的方法使字符區(qū)間的能量削弱了,從而產(chǎn)生誤檢。參考文獻(xiàn)[6]的誤檢主要來自于背景復(fù)雜度較高的圖像,而其在定位時,小于8像素的英文字符在定位過程中會被誤認(rèn)為是噪點刪除;在圖像中出現(xiàn)多個英文字符區(qū)域時,該算法優(yōu)先選擇了斜向能量較大的幾個字符區(qū)域,一些字符區(qū)域被視為背景,造成漏檢。
改進(jìn)后的方法對小波系數(shù)進(jìn)行了非線性加權(quán),然后進(jìn)行塊間能量平均,在背景復(fù)雜度較高的圖像處理上,該方法定位效果比較好;在處理一些包含多字符區(qū)域的圖像或者包含低于8像素的英文字符區(qū)域時,該方法能很好地完成定位。從實驗結(jié)果來看,對于尺寸很大或者字符間隙很大的字符還是沒能很好地定位。當(dāng)一些非文本區(qū)域具有與文本相似的紋理時,本算法會產(chǎn)生虛警,文本定位的效果不好。這些壓縮域字符定位的通病,也是今后著重研究的問題。
本文提出了一種改進(jìn)的小波變換域的圖像中字符定位的方法,該方法在充分利用字符筆劃在小波變換域中的特點的基礎(chǔ)上,對小波系數(shù)進(jìn)行加權(quán),突出了字符區(qū)間的能量。算法實現(xiàn)簡單,具有較強(qiáng)的適應(yīng)性。實驗結(jié)果表明,本文算法具有較高的正確檢測率,總體而言,相對于視頻、圖像上人工字符定位來說,效果還是比較理想的。今后要進(jìn)一步研究字符分割及識別技術(shù)。
參考文獻(xiàn)
[1] 王辰, 松楊,胡曉峰. 視頻中的文字探測[J]. 小型微型計算機(jī)系統(tǒng),2002,23(4):478-481.
[2] WU V, MANMATHA R, RISEMAN E M. An automatic system to detect and recognize text in images[C]. IEEE Transaction on Pattern Analysis and Machine Intelligence 1999:6.
[3] ZHONG Y, HANG H J, JAIN A K. Automatic caption localization in compressed video[C]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2000:8.
[4] 黃祥林,沈蘭蓀. 基于DCT 壓縮域的圖像字符定位[J]. 中國圖像圖形學(xué)報, 2002,7(001):22-26.
[5] 黃曉東,周源華. 用小波變換及顏色聚類提取的視頻圖像內(nèi)中文字幕[J]. 計算機(jī)工程, 2003(1):43-44.
[6] 張二虎,張緒進(jìn),張志剛. 小波變換域中圖像字符的定位提取方法[J]. 應(yīng)用科學(xué)學(xué)報, 2006(2):135-139.
[7] 孫惠平,劉黨輝,沈蘭蓀.基于DCT壓縮域的快速字符定位算法研究[J].電子學(xué)報,2006(4):751-754.