摘 要: 結(jié)合C程序,將預(yù)處理后的單個(gè)漢字圖像與原圖像進(jìn)行逐個(gè)像素對(duì)比以判斷讀寫,描寫出原漢字字形。對(duì)經(jīng)過預(yù)處理的單個(gè)漢字圖像進(jìn)行分析,提出了運(yùn)用最小二乘法對(duì)二值化筆畫點(diǎn)進(jìn)行分組擬合的方法,從分布散亂的像素點(diǎn)中擬合出直線或曲線,畫出漢字筆畫,并計(jì)算相關(guān)系數(shù)、相關(guān)指數(shù)、殘差及其平方和等參數(shù),評(píng)估相關(guān)性、回歸特性等擬合效果。最后,采用計(jì)算坐標(biāo)平均的方法平整左右上下線,將其矯正成左右邊豎直、上下邊水平的口字形。
關(guān)鍵詞: 圖像分析;最小二乘法;擬合;像素對(duì)比;漢字筆畫
由于數(shù)字圖像的復(fù)雜性,至今仍沒有一種通用的處理檢測(cè)算法。在處理時(shí),對(duì)被處理的圖像有相當(dāng)?shù)囊蕾囆?不同的算法都有其優(yōu)點(diǎn),同時(shí)也存在各自的不足[1]。
將原圖像與預(yù)處理后的圖像進(jìn)行像素對(duì)比讀寫,從而描繪出與原圖像相仿的漢字字形。該方法以C程序來(lái)實(shí)現(xiàn),簡(jiǎn)單而實(shí)用。
通過預(yù)處理操作,單個(gè)漢字圖像的筆畫會(huì)變成一些看似有規(guī)律分布的像素點(diǎn),其中,不少的像素點(diǎn)已經(jīng)被處理掉,筆畫變得斷斷續(xù)續(xù)、參差不齊,不好判斷其原字形。應(yīng)用最小二乘法進(jìn)行擬合能將這些點(diǎn)按照某種規(guī)律連續(xù)起來(lái),可以很大程度地還原筆畫,為進(jìn)一步的識(shí)別打下基礎(chǔ)[2]。
曲線擬合中最基本和最常用的是直線擬合[3]。設(shè)x和y之間的函數(shù)關(guān)系為:
計(jì)算結(jié)果與擬合效果評(píng)定如下:
斜率b=1.326 167 238 195 73;截距a=16.116 855 710 894 2;回歸方程為y=1.326 167 238 195 73x+16.116 855 710 894 2;相關(guān)系數(shù):r=0.929 217 368 156 058,正相關(guān)很強(qiáng);相關(guān)指數(shù)R2=0.863 444 917 282 872,回歸效果很好;殘差平方和為527.222 104 985 4。
2.3 “口”字形筆畫點(diǎn)
采用最小二乘法進(jìn)行擬合的方法進(jìn)行口字分組擬合直線,以提取“苦”中的“口”字形。鑒于像素點(diǎn)數(shù)量過大不便于進(jìn)行擬合實(shí)驗(yàn),本文先進(jìn)行二值化處理減少筆畫點(diǎn),再進(jìn)行直線擬合。圖3為選取各組不同閾值進(jìn)行二值化得到的結(jié)果,可以看出,當(dāng)閾值變小時(shí),筆畫點(diǎn)的數(shù)量也將減少。
從圖3可以看出,當(dāng)閾值取60時(shí),筆畫的數(shù)量合適,便于進(jìn)行擬合分析,因此選取圖3(d)圖進(jìn)行坐標(biāo)點(diǎn)賦值和擬合實(shí)驗(yàn)。
將X右、Y底、X左、Y上作為筆畫的四邊,得到矯正后的口字形,同時(shí)4個(gè)對(duì)角點(diǎn)位置由所得4個(gè)平均坐標(biāo)組合得到,確定筆畫的邊界。坐標(biāo)平均矯正的結(jié)果如圖5(b)所示。
本文對(duì)最小二乘法擬合原理計(jì)算公式進(jìn)行了闡述,提出的像素點(diǎn)對(duì)比方法達(dá)到了提出漢字整體輪廓的目的。同時(shí)也提出將最小二乘法直線擬合運(yùn)用到單個(gè)漢字筆畫點(diǎn)字形提取當(dāng)中,得到了與原字形相符的“口”字形筆畫,擬合效果好,達(dá)到了預(yù)期的目的,同時(shí)為漢字的自動(dòng)識(shí)別提取研究打下基礎(chǔ)。
另外,對(duì)以下幾個(gè)方面作進(jìn)一步說(shuō)明:(1)對(duì)于彎曲曲線的字形筆畫,可以嘗試用最小二乘法進(jìn)行曲線擬合,同時(shí),其他高等數(shù)學(xué)擬合方法也可以用來(lái)對(duì)筆畫點(diǎn)進(jìn)行分析;(2)漢字筆畫點(diǎn)自動(dòng)識(shí)別提取,實(shí)現(xiàn)對(duì)筆畫點(diǎn)自動(dòng)擬合;(3)筆畫點(diǎn)二值化處理的閾值選擇與筆畫點(diǎn)數(shù)量的確定需要進(jìn)行更客觀的規(guī)律分析,達(dá)到閾值的優(yōu)化選擇,筆畫點(diǎn)數(shù)量范圍更大。
參考文獻(xiàn)
[1] 朱輝,楊揚(yáng),頡斌,等.SVM在小字符集手寫體漢字識(shí)別中的應(yīng)用研究[J].微計(jì)算機(jī)信息,2004(8-1):21-23.
[2] 樊鈞,王潤(rùn)生.從圖像中提取文字[J].國(guó)防科技大學(xué)學(xué)報(bào),2002(01):59-62.
[3] 黨興菊,吳文良.最小二乘法擬合直線公式的推導(dǎo)[J].重慶科技學(xué)院學(xué)報(bào)(自然科學(xué)版),2010,12(4):185-187.
[4] 薛鵬濤,雷金山,肖立.土工直剪試驗(yàn)的最小二乘法擬合[J].中外公路,2007,27(5):41-44.
[5] 丁克良,沈云中,歐吉坤.整體最小二乘法直線擬合[J].遼寧工程技術(shù)大學(xué)學(xué)報(bào)(自然科學(xué)版),2010,29(1):44-47.
[6] 馬建波.C語(yǔ)言圖像處理程序集[M].北京:海洋出版社,1992.