123,123

一种改进的小波变换域的字符定位方法

来源：微型机与应用2011年第18期

张阳，王嘉梅

（云南民族大学电气信息工程学院，云南昆明350011）

摘要： 在分析图像中字符特点的基础上,研究其在小波变换域中的特征,依据这些特征,分析频率加权阈值法和利用块间信息的平均阈值法的优缺点，将二者结合进行图像字符定位。实验表明,该算法可进行图像中的字符定位,同时又可以弥补两种方法定位时的不足。

關(guān)鍵詞： 无线网络字符定位小波变换加权系数

Abstract：

Key words :

摘要: 在分析圖像中字符特點(diǎn)的基礎(chǔ)上,研究其在小波變換域中的特征,依據(jù)這些特征,分析頻率加權(quán)閾值法和利用塊間信息的平均閾值法的優(yōu)缺點(diǎn)，將二者結(jié)合進(jìn)行圖像字符定位。實(shí)驗(yàn)表明,該算法可進(jìn)行圖像中的字符定位,同時(shí)又可以彌補(bǔ)兩種方法定位時(shí)的不足。
關(guān)鍵詞: 字符定位; 小波變換; 加權(quán)系數(shù)

    隨著計(jì)算機(jī)性能的提升和數(shù)字化存儲(chǔ)技術(shù)的不斷發(fā)展，從海量的視頻資料中找到想要的信息已經(jīng)成為十分迫切的需求，所以對(duì)視頻內(nèi)容的分析、建立基于內(nèi)容的索引以及視頻內(nèi)容的結(jié)構(gòu)化描述成為近年來(lái)研究的熱點(diǎn)。字符的分析與處理是視頻分析的重要內(nèi)容，進(jìn)行圖像字符分析處理的基礎(chǔ)就是探測(cè)圖像中字符的出現(xiàn)及定位其準(zhǔn)確坐標(biāo)。
    目前對(duì)圖像中的字符定位方法大致可以分為兩大類:一類是在原像素域內(nèi)的處理方法[1-2] ,其主要是根據(jù)字符的紋理特征或結(jié)構(gòu)特征來(lái)定位字符；另一類是基于壓縮域的處理方法[3-5],主要是DCT變換域和小波域,主要依據(jù)字符的筆劃邊緣在頻域中表現(xiàn)較大的系數(shù)和方向性,利用這些系數(shù)來(lái)進(jìn)行字符定位。在壓縮域中，這些方法能夠充分利用圖像中的字符在頻率變換域中的特點(diǎn),且只需要進(jìn)行簡(jiǎn)單的解碼,其處理的速度較快,具有較高的正確檢測(cè)率,是目前研究的熱點(diǎn)。參考文獻(xiàn)[6]提出了小波變換域的圖像字符定位方法,并通過(guò)對(duì)大量圖像字符定位的研究表明,該方法適應(yīng)性強(qiáng), 但處理背景復(fù)雜的圖像效果稍微差一些。而參考文獻(xiàn)[7]在定位時(shí)采用加權(quán)頻率的方法，在對(duì)背景復(fù)雜度高的圖片進(jìn)行定位時(shí)有較好的效果，但是該方法處理一些較小的英文字符時(shí)漏檢較多。本文在分析參考文獻(xiàn)[6-7]的基礎(chǔ)上,先對(duì)小波變換系數(shù)進(jìn)行非線性加權(quán),然后再采用自適應(yīng)動(dòng)態(tài)閾值及結(jié)合塊間信息來(lái)提高檢測(cè)的正確率及算法的適應(yīng)性。
1 小波變換域能量表征及分類
    字符可能出現(xiàn)在圖像和視頻中的任何地方,但并不是所有出現(xiàn)的字符對(duì)視頻和圖像都有內(nèi)容上的相關(guān)。將視頻中出現(xiàn)的字符分為人工字符和背景字符兩類[1]。人工字符本身有特定的筆劃結(jié)構(gòu)，在空間上表示為水平、豎直以及對(duì)角線方向的筆劃。字符灰度變化不大，但邊緣變化較大，有突出的水平、豎直以及斜向的紋理特征。本文主要研究人工字符定位，利用人工字符的這些特征可以將字符區(qū)間和背景分開(kāi)，對(duì)字符進(jìn)行定位。
    對(duì)圖像信號(hào)進(jìn)行小波變換，可以將其分解為平均部分、垂直細(xì)節(jié)部分、水平細(xì)節(jié)部分以及對(duì)角線細(xì)節(jié)部分，這些剛好對(duì)應(yīng)于圖像中字符的筆劃特點(diǎn)。在小波變換域上進(jìn)行字符定位的主要步驟就是給出標(biāo)志字符中筆劃走向?qū)?yīng)的頻率變化的能量。設(shè)圖像f(i，j)經(jīng)小波變換后對(duì)應(yīng)的小波系數(shù)為C(i，j)，如圖1所示。

3 實(shí)驗(yàn)結(jié)果及討論
實(shí)驗(yàn)中選擇的圖像分別來(lái)自視頻截圖以及Web圖像等,水平和豎直方向的實(shí)驗(yàn)參數(shù)k取0.2~0.23之間的值效果較好，對(duì)角線方向k取0.13效果較好。三種方法的檢測(cè)率比較結(jié)果如表1所示。

部分實(shí)驗(yàn)定位效果如圖6所示，實(shí)驗(yàn)中選擇的圖像共包含360 個(gè)字符區(qū),其中實(shí)際檢測(cè)到的字符區(qū)332個(gè),正確檢測(cè)率為92.5%;未檢測(cè)到的字符區(qū)28個(gè),漏檢率為5.8%;檢測(cè)到的錯(cuò)誤字符區(qū)49個(gè),錯(cuò)誤檢測(cè)率為13.7%。參考文獻(xiàn)[6]的方法主要針對(duì)背景復(fù)雜的圖像，采用平均能量的方法使字符區(qū)間的能量削弱了，從而產(chǎn)生誤檢。參考文獻(xiàn)[6]的誤檢主要來(lái)自于背景復(fù)雜度較高的圖像，而其在定位時(shí)，小于8像素的英文字符在定位過(guò)程中會(huì)被誤認(rèn)為是噪點(diǎn)刪除;在圖像中出現(xiàn)多個(gè)英文字符區(qū)域時(shí)，該算法優(yōu)先選擇了斜向能量較大的幾個(gè)字符區(qū)域，一些字符區(qū)域被視為背景，造成漏檢。

改進(jìn)后的方法對(duì)小波系數(shù)進(jìn)行了非線性加權(quán)，然后進(jìn)行塊間能量平均，在背景復(fù)雜度較高的圖像處理上,該方法定位效果比較好;在處理一些包含多字符區(qū)域的圖像或者包含低于8像素的英文字符區(qū)域時(shí)，該方法能很好地完成定位。從實(shí)驗(yàn)結(jié)果來(lái)看，對(duì)于尺寸很大或者字符間隙很大的字符還是沒(méi)能很好地定位。當(dāng)一些非文本區(qū)域具有與文本相似的紋理時(shí),本算法會(huì)產(chǎn)生虛警，文本定位的效果不好。這些壓縮域字符定位的通病，也是今后著重研究的問(wèn)題。
本文提出了一種改進(jìn)的小波變換域的圖像中字符定位的方法,該方法在充分利用字符筆劃在小波變換域中的特點(diǎn)的基礎(chǔ)上，對(duì)小波系數(shù)進(jìn)行加權(quán),突出了字符區(qū)間的能量。算法實(shí)現(xiàn)簡(jiǎn)單,具有較強(qiáng)的適應(yīng)性。實(shí)驗(yàn)結(jié)果表明，本文算法具有較高的正確檢測(cè)率，總體而言，相對(duì)于視頻、圖像上人工字符定位來(lái)說(shuō)，效果還是比較理想的。今后要進(jìn)一步研究字符分割及識(shí)別技術(shù)。
參考文獻(xiàn)
[1] 王辰，松楊，胡曉峰. 視頻中的文字探測(cè)[J]. 小型微型計(jì)算機(jī)系統(tǒng)，2002,23(4):478-481.
[2] WU V, MANMATHA R, RISEMAN E M. An automatic system to detect and recognize text in images[C]. IEEE Transaction on Pattern Analysis and Machine Intelligence 1999:6.
[3] ZHONG Y, HANG H J, JAIN A K. Automatic caption localization in compressed video[C]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2000:8.
[4] 黃祥林,沈蘭蓀. 基于DCT 壓縮域的圖像字符定位[J]. 中國(guó)圖像圖形學(xué)報(bào), 2002,7(001):22-26.
[5] 黃曉東,周源華. 用小波變換及顏色聚類提取的視頻圖像內(nèi)中文字幕[J]. 計(jì)算機(jī)工程, 2003(1):43-44.
[6] 張二虎,張緒進(jìn),張志剛. 小波變換域中圖像字符的定位提取方法[J]. 應(yīng)用科學(xué)學(xué)報(bào), 2006(2):135-139.
[7] 孫惠平，劉黨輝，沈蘭蓀.基于DCT壓縮域的快速字符定位算法研究[J].電子學(xué)報(bào),2006(4):751-754.

原創(chuàng)聲明：此內(nèi)容為AET網(wǎng)站原創(chuàng)，未經(jīng)授權(quán)禁止轉(zhuǎn)載。

相關(guān)內(nèi)容