《電子技術(shù)應(yīng)用》
您所在的位置:首頁 > 其他 > 業(yè)界動(dòng)態(tài) > 一種基于形態(tài)學(xué)的文本圖像二值化算法

一種基于形態(tài)學(xué)的文本圖像二值化算法

2009-09-28
作者:陳 剛,王厚大

  摘 要: 在實(shí)驗(yàn)的基礎(chǔ)上通過對(duì)現(xiàn)有的二值化算法進(jìn)行研究分析, 提出了一種新的二值化算法。該算法利用形態(tài)學(xué)的開運(yùn)算來消除圖像光照不均勻,根據(jù)最大類間方差確定圖像閾值,然后高斯平滑噪聲,銳化邊緣。結(jié)果表明該算法能較好地保留圖像特征,并且能夠克服傳統(tǒng)方法帶來的離散噪聲,二值化效果較好。
  關(guān)鍵詞: 光學(xué)字符識(shí)別;數(shù)學(xué)形態(tài)學(xué);二值化;熵

?

  目前,光學(xué)字符識(shí)別OCR(Optical Character Recognition)技術(shù)已在眾多領(lǐng)域得到廣泛應(yīng)用。它作為計(jì)算機(jī)智能接口的重要組成部分,能夠?qū)崿F(xiàn)文字信息高速、自動(dòng)地輸入。在字符圖像識(shí)別方面,預(yù)處理效果的好壞直接影響OCR系統(tǒng)的性能,其中二值化更是整個(gè)預(yù)處理過程的關(guān)鍵所在。盡管近年來各位研究人員提出了許多二值化方法[1,2],但是到目前為止還沒有一種通用的方法,也不存在一個(gè)判斷二值化是否成功的客觀標(biāo)準(zhǔn),因此它被認(rèn)為是計(jì)算機(jī)視覺中的一個(gè)瓶頸。
  本文提出了一種基于灰度形態(tài)學(xué)的處理方法:提取圖像的背景,用原圖減去背景使其變成零背景圖像,接著采用最大類間方差法確定閾值進(jìn)行二值化。實(shí)驗(yàn)結(jié)果表明了算法的有效性,適用于字符識(shí)別的預(yù)處理。本實(shí)驗(yàn)的全部程序在Visual Studio 2005.NET環(huán)境下開發(fā)實(shí)現(xiàn),源代碼用C++語言編寫[3,4]。
1 基本原理
1.1 數(shù)學(xué)形態(tài)學(xué)圖像處理[5,6]

  數(shù)學(xué)形態(tài)學(xué)是一門新興的圖像處理分析工具,在圖像分析中得到了廣泛的應(yīng)用。通常情況下,形態(tài)學(xué)處理以在圖像中移動(dòng)一個(gè)結(jié)構(gòu)元素并進(jìn)行一種類似于卷積操作的方式進(jìn)行。數(shù)學(xué)形態(tài)學(xué)由一系列代數(shù)算子組成,基本的算子包括腐蝕、膨脹以及由這兩種運(yùn)算組合而成的開運(yùn)算和閉運(yùn)算。圖像B和結(jié)構(gòu)元素S都是定義在二維笛卡爾網(wǎng)格上的集合。當(dāng)一個(gè)結(jié)構(gòu)元素的原點(diǎn)平移到點(diǎn)(x,y)處時(shí),將其記為Sxy。
  

  

  由形態(tài)學(xué)的運(yùn)算可知,開運(yùn)算可以去除較小的明亮細(xì)節(jié)并保持較大的明亮區(qū)域不變;閉運(yùn)算用于去除圖像中的暗細(xì)節(jié)部分而保持明亮細(xì)節(jié)不受影響。由于背景表現(xiàn)為圖像中的高頻部分,因此可采用開運(yùn)算進(jìn)行背景估計(jì),然后從原始圖像中減去背景[7]。本文正是用這個(gè)方法去除背景得到零背景圖像,去除背景可能不均勻所帶來的影響[8]。
1.2 最大類間方差法
  最大類間方差法[9,10]是由日本學(xué)者大津于1979 年提出的,是一種自適應(yīng)的閾值確定方法,又叫大津法,簡稱Otsu。它按圖像的灰度特性,將圖像分成背景和目標(biāo)兩部分。因方差是灰度分布均勻性的一種度量,方差值越大,說明構(gòu)成圖像的兩部分差別越大,因此,背景和目標(biāo)之間的類間方差越大,說明構(gòu)成圖像的兩部分的差別也越大。當(dāng)部分目標(biāo)錯(cuò)分為背景或部分背景錯(cuò)分為目標(biāo)都會(huì)導(dǎo)致兩部分差別變小,因此,使類間方差最大的分割意味著錯(cuò)分概率最小。設(shè)t為前景與背景的二值化閾值;屬于前景像素點(diǎn)數(shù)占圖像比例為w0,平均灰度為u0;背景點(diǎn)數(shù)占圖像比例為w1,平均灰度為u1;圖像的總平均灰度為u,類間方差記為g。假設(shè)圖像的背景較暗,圖像的大小為M×N,圖中像素的灰度小于閾值t的像素個(gè)數(shù)為N0(此類像素被判為前景),像素灰度值大于閾值t的像素個(gè)數(shù)為N1(此類像素被判為背景),則有:

  

  采用遍歷的方法得到使類間方差最大的閾值t,即為所求。
1.3 最大熵法[7]
  熵是作為函數(shù)不確定性的度量,將熵的概念引入圖像二值化處理中,就是基于圖像灰度直方圖的熵測(cè)量。通常,可以從不同的角度出發(fā)來定義不同的圖像灰度直方圖的熵測(cè)量方法,在此基礎(chǔ)上定義獲得最大熵以及選擇最佳二值化閾值的方法。一般情況下,有3種基于圖像灰度直方圖熵測(cè)量的圖像二值化處理閾值法:基于一個(gè)分布假設(shè)提出的P氏熵法、基于2個(gè)分布假設(shè)提出的KSW 熵法以及基于極小類間依賴性的JM熵法。
  下面,本文將重點(diǎn)討論基于2個(gè)分布假設(shè)提出的KSW熵法。?
  

2 本文算法的基本原理與步驟
  本文提出了一種基于數(shù)學(xué)形態(tài)學(xué)的文本圖像二值化算法,首先用形態(tài)學(xué)開運(yùn)算得到零背景圖像,然后將Otsu算法用于零背景圖像,確定閾值t*。由于此時(shí)二值化圖像中出現(xiàn)離散雜點(diǎn),故用高斯平滑來消除這些雜點(diǎn),最后用拉普拉斯銳化來增強(qiáng)圖像。算法的具體過程描述如下:
  (1)導(dǎo)入目標(biāo)圖像A;
  (2)選取一個(gè)大的結(jié)構(gòu)對(duì)目標(biāo)圖像A進(jìn)行多次開運(yùn)算提取圖像背景;
  (3)原圖像減去背景,得出背景為0的圖像B;
  (4)對(duì)B進(jìn)行Otsu法處理,得出最優(yōu)閾值t*
  (5)根據(jù)t*對(duì)圖像B二值化分割形成圖像C;
  (6)對(duì)圖像C進(jìn)行平滑濾波形成圖像D;
  (7)對(duì)圖像D進(jìn)行拉普拉斯銳化形成最終的二值圖像E。
  上述算法考慮了圖像光照不均勻、噪聲干擾等情況,采用了大結(jié)構(gòu)提取背景對(duì)算法的性能影響不大。
3?實(shí)驗(yàn)結(jié)果及分析?
  為了檢驗(yàn)本文算法的有效性,采用一段舊報(bào)紙圖像作為測(cè)試圖像進(jìn)行實(shí)驗(yàn)并與采用最大類間方差法和最大熵法[6]進(jìn)行比較,實(shí)驗(yàn)結(jié)果如圖1所示,實(shí)驗(yàn)數(shù)據(jù)如表1所示。圖1(b)中因目標(biāo)與背景灰度差不多而出現(xiàn)多塊的黑色區(qū)塊;圖1(c)效果比圖1(b)好,沒有了黑色區(qū)塊,但有一部分背景被視為目標(biāo),有大量的離散噪聲,二值化效果沒有圖1(d)好;圖1(d)中沒有黑色區(qū)塊且離散噪聲也要少很多。從表1可以看出,在執(zhí)行速度方面,本文算法比最大類間方差算法慢,但比最大熵法要快得多,因?yàn)楸疚乃惴m然中間有一個(gè)提取圖像背景的過程,但在這個(gè)過程中選擇的開運(yùn)算的結(jié)構(gòu)元素相當(dāng)大,執(zhí)行時(shí)間相對(duì)整個(gè)過程是很短的,而最大熵由于涉及到對(duì)數(shù)運(yùn)算,速度當(dāng)然就慢得多。


  本文重點(diǎn)分析了最大類間方差法[9]和KSW最大熵法[7]在處理低質(zhì)量文本圖像二值化時(shí)存在的問題,在此基礎(chǔ)上,基于數(shù)學(xué)形態(tài)學(xué)原理,提出了一種基于形態(tài)學(xué)的文本圖像二值化算法。實(shí)驗(yàn)結(jié)果證明了該算法的可行性。該算法克服了最大類間方差法出現(xiàn)的黑塊并使得離散噪聲較最大熵法有較大改善。但是,在實(shí)驗(yàn)過程中發(fā)現(xiàn),對(duì)噪聲較大、復(fù)雜、甚至變形的文本圖像,其二值化效果不是很理想,這也將成為下一步努力的方向。
參考文獻(xiàn)
[1]??陳丹, 張蜂, 賀貴明. 一種改進(jìn)的文本圖像二值化算法[J]. 計(jì)算機(jī)工程, 2003, 29(13): 85-86.
[2]??朱軍民, 黃磊, 劉昌平. 圖像二值化方法比較[A]. 第八屆全國漢字識(shí)別學(xué)術(shù)會(huì)議論文, 紹興,2002.
[3]??楊淑瑩. VC++圖像處理程序設(shè)計(jì)[M]. 北京: 清華大學(xué)出版社, 2005.
[4]??陳純. 計(jì)算機(jī)圖像處理技術(shù)與算法[M]. 北京:清華大學(xué)出版社, 2003.
[5]??崔屹.圖像處理與分析—數(shù)學(xué)形態(tài)學(xué)方法及應(yīng)用[M]. 北京: 科學(xué)出版社, 2000.
[6]? CASTLEMAN K R . 數(shù)字圖像處理[M]. 北京: 電子工業(yè)出版社, 2006.
[7]? 魏軍偉, 方敏. 基于最大熵和形態(tài)學(xué)的邊緣檢測(cè)[J]. 計(jì)算機(jī)工程與應(yīng)用,2007,43(21):70-71,92.
[8]? 潘梅森, 張奮, 霍超陽. 一種車牌號(hào)碼圖像二值化的新方法[J]. 計(jì)算機(jī)工程, 2008,34(4):209-211,214.
[9]? 齊麗娜, 張博. 最大類間方差法在圖像處理中的應(yīng)用[J]. 無線電工程, 2006(7): 29-30,48.
[10]?RAIS N B, HANIF M S, TAJ I A. Adaptive thresholding technique for document image analysis[C]. Multitopic Conference, 2004. Proceedings of INMIC 2004. 8th International, 2004: 61-66.

本站內(nèi)容除特別聲明的原創(chuàng)文章之外,轉(zhuǎn)載內(nèi)容只為傳遞更多信息,并不代表本網(wǎng)站贊同其觀點(diǎn)。轉(zhuǎn)載的所有的文章、圖片、音/視頻文件等資料的版權(quán)歸版權(quán)所有權(quán)人所有。本站采用的非本站原創(chuàng)文章及圖片等內(nèi)容無法一一聯(lián)系確認(rèn)版權(quán)者。如涉及作品內(nèi)容、版權(quán)和其它問題,請(qǐng)及時(shí)通過電子郵件或電話通知我們,以便迅速采取適當(dāng)措施,避免給雙方造成不必要的經(jīng)濟(jì)損失。聯(lián)系電話:010-82306118;郵箱:aet@chinaaet.com。