《電子技術(shù)應(yīng)用》
您所在的位置:首頁 > 嵌入式技術(shù) > 設(shè)計(jì)應(yīng)用 > 基于混合高斯模型的物體成分?jǐn)M合方法
基于混合高斯模型的物體成分?jǐn)M合方法
2016年電子技術(shù)應(yīng)用第6期
郎 波,樊一娜,黃 靜,王 鵬
北京師范大學(xué)珠海分校 信息技術(shù)學(xué)院,廣東 珠海519087
摘要: 為了尋求代價(jià)更小、效率更高、適應(yīng)性更強(qiáng)的圖像原型表征方法,借鑒成分識別理論的觀點(diǎn),設(shè)計(jì)出一種更符合人類認(rèn)知原理、更具有可理解性的物體擬合算法。利用二維高斯混合函數(shù),用高斯成分來擬合物體的邊緣圖像,使得物體的表征由單一的像素表示轉(zhuǎn)變?yōu)槔贸煞诌M(jìn)行表征的方式。為了使得擬合結(jié)果更具有健壯性,在算法中還引入了分裂-歸約機(jī)制來對擬合結(jié)果進(jìn)行修正。實(shí)驗(yàn)結(jié)果表明,這種擬合手段能夠很好地描述物體的特征成分,為圖像進(jìn)行后期的高級語義處理奠定了基礎(chǔ)。
中圖分類號: TP3
文獻(xiàn)標(biāo)識碼: A
DOI:10.16157/j.issn.0258-7998.2016.06.035
中文引用格式: 郎波,樊一娜,黃靜,等. 基于混合高斯模型的物體成分?jǐn)M合方法[J].電子技術(shù)應(yīng)用,2016,42(6):128-131.
英文引用格式: Lang Bo,F(xiàn)an Yina,Huang Jing,et al. Object component fitting computation based on 2-dimensional mixed Gaussian model[J].Application of Electronic Technique,2016,42(6):128-131.
Object component fitting computation based on 2-dimensional mixed Gaussian model
Lang Bo,F(xiàn)an Yina,Huang Jing,Wang Peng
School of Information Technology,Beijing Normal university Zhuhai,Zhuhai 519087,China
Abstract: For representing image prototype, minor price, more efficient and more flexible, this paper designs an object fitting algorithm which conforms human′s recognition mechanism and has much intelligibility based on recognition-by-component theory. The designed algorithm uses mixture of 2-dimensional Gaussian component to fit the object′s edge images, and makes object representation from single pixel converted into component. For seek more robust fitting algorithm, a Split-Convergence mechanism is introduced to amend the fitting results. The experimental results demonstrated that this fitting algorithm can well describe the object feature component, and laying a good foundation for image high-level semantic processing.
Key words : prototype representation;object recognition;2-dimensional Gaussian;component theory;fitting

0 引言 

    目前計(jì)算機(jī)視覺研究領(lǐng)域?qū)ξ矬w的表征主要集中于基于輪廓的形狀表征,并提出了各種描述子[1,2],例如全局描述子、局部描述子、多尺度描述子和多方面描述子。全局描述子缺少細(xì)節(jié)描述,區(qū)分力較差,而局部描述子雖然能對形狀進(jìn)行細(xì)致刻畫,但是對噪聲非常敏感[3]。為了解決這一問題,出現(xiàn)了多尺度描述子,例如多尺度分形維數(shù)算法[4]和輪廓點(diǎn)控制尺度的算法[5]。另外還有形狀上下文為代表的多方面描述子[6]以及基于特征統(tǒng)計(jì)的同心離散圓簇描述法[7]。成分識別理論(Recognition-By-Components theory)是Biederman在20世紀(jì)80年代提出的一種模式識別的理論[8]。Biederman 抽象出的幾何基元也許并不能全面涵蓋人類所能識別的所有場景,但這并不妨害成分識別理論所提出的模型的表達(dá)能力。在識別時(shí),這些幾何基元是關(guān)鍵的特征,通過邊緣檢測,分離不依賴觀察角度的特征、幾何基元及其關(guān)系的激活、物體模式的激活和物體確認(rèn)幾個(gè)步驟,識別出主要的幾何基元,相應(yīng)的模式也就被識別出來。事實(shí)上,這種方法把千變?nèi)f化的物體視為高度抽象的、簡化的幾何造型,通過對其各個(gè)部件的知識的組合獲得對物體整體的知識。

1 擬合邊緣信息的高斯成分模型

1.1 二維混合高斯模型jsj4-t1.gif

    高斯成分是一種同質(zhì)化參數(shù)形成的向量化表示,它可以給不同的成分以統(tǒng)一形式的表征,以方便計(jì)算機(jī)的存儲和處理。它的二維截面是一個(gè)橢圓形,如圖1所示,可以用來擬合物體被抽象之后的各種邊緣“段”。

    針對原型中的每個(gè)基本成分,二維圖像中的每個(gè)坐標(biāo)可以建立一個(gè)概率函數(shù):

    jsj4-gs1.gif

其中,指數(shù)部分e(x,y)表示為:

    jsj4-gs2.gif

    式(1)表示的是在X-Y平面上經(jīng)過了平移和旋轉(zhuǎn)變換后得到的二維高斯模型,用來表示物體中一個(gè)單一的成分。其中(x0,y0)分別是高斯成分中心位置坐標(biāo),θ表示高斯成分旋轉(zhuǎn)的角度,σx和σy的取值與物體成分本身的形狀相關(guān),其取值大小取決于成分在二維橫截面上呈現(xiàn)的長度或者寬度的大小。除了形狀上形成狹長的橢圓,采用二維高斯成分,可以讓這些邊緣“段”有一個(gè)統(tǒng)一的參數(shù)化表征,這表示為由5個(gè)維度組成的描述向量(x0,y0,θ,σx,σy)。在此基礎(chǔ)上,二維高斯混合模型則是一系列二維高斯模型在總權(quán)重值為1的情況下加權(quán)求和的產(chǎn)物,也就意味著一系列成分的線性疊加,從而構(gòu)成多成分組合結(jié)構(gòu),二維混合高斯模型表示為:

    jsj4-gs3-4.gif

其中,gk(x,y)是用于描述第k個(gè)成分的二維高斯函數(shù),wk是該成分對應(yīng)的權(quán)重。如上所述,在混合模型中,原型中的成分最終用6個(gè)參數(shù)組成的向量(x0,y0,θ,σx,σy,w)來進(jìn)行表示,由n個(gè)成分組成的混合高斯模型就能用一個(gè)n×6維的矩陣來表示。

1.2 成分訓(xùn)練——從樣本圖像到混合二維高斯模型學(xué)習(xí)方法

    首先對圖像中的物體進(jìn)行邊緣檢測,成分的擬合將在物體的輪廓圖像上進(jìn)行。由于圖像中不同的物體所對應(yīng)的成分?jǐn)?shù)量也不同,所以可以采用期望最大化(EM)算法對成分參數(shù)進(jìn)行估計(jì)。其通用過程可以表達(dá)為:

    jsj4-gs5.gif

其中,x表示所有參與計(jì)算的實(shí)例中的觀察值,Z是所有的隱變量,θ表示概率模型的所有參數(shù),L(x,Z=z|θ)表示似然概率的對數(shù)值。EM算法需要借助隨機(jī)化手段對參數(shù)值進(jìn)行初始化,然而初始化的值一般并非完全隨機(jī),在本文介紹的擬合高斯成分的過程中,成分中心坐標(biāo)不用被隨機(jī)化成平面上的任何一點(diǎn),而是選擇一個(gè)樣本點(diǎn)作為初始化類中心,這樣做的好處是能夠讓收斂更快的完成,以及更好地避免退化。

    擬合時(shí),用二值圖像表示的物體輪廓可以視為一系列采樣點(diǎn)的集合。假設(shè):(xi,yi)表示第i個(gè)采樣點(diǎn);jsj4-gs5-x1.gif是第j個(gè)成分的參數(shù)組,(t表示迭代運(yùn)算的次數(shù));jsj4-gs5-x2.gif表示第i個(gè)采樣點(diǎn)上根據(jù)參數(shù)組jsj4-gs5-x3.gif計(jì)算出的后驗(yàn)概率,記為:jsj4-gs5-x4.gif利用期望—最大化算法的通用描述可推導(dǎo)如下:

jsj4-gs6-11.gif

jsj4-gs6-12-14.gif

    一個(gè)比邊緣信息更好的選擇是利用基于生理學(xué)模型模擬的神經(jīng)節(jié)細(xì)胞非經(jīng)典感受野的輸出圖像,這種小尺寸感受野的圖像表征方法能夠取得更清晰的邊界,而且會抑制一些無關(guān)的紋理信息[9-11]。測試結(jié)果如圖2所示。

jsj4-t2.gif

2 擬合實(shí)驗(yàn)結(jié)果jsj4-t3.gif

    圖3是從網(wǎng)絡(luò)上隨機(jī)獲得的用于進(jìn)行樣本訓(xùn)練的實(shí)驗(yàn)圖像,圖4是經(jīng)過高斯成分?jǐn)M合后選定的標(biāo)定點(diǎn),圖5展示了利用高斯成分?jǐn)M合物體邊緣的實(shí)驗(yàn)效果,將像素點(diǎn)的邊緣檢測信息轉(zhuǎn)化為可度量的成分?jǐn)M合,為有效進(jìn)行圖像表征奠定了重要的度量基礎(chǔ)。

jsj4-t4.gif

jsj4-t5.gif

    可以觀察到擬合成分的不同形態(tài)與表示它的參數(shù)向量,尤其是細(xì)長條狀的成分與較圓的成分之間的區(qū)別。參數(shù)向量中數(shù)字的順序遵循前面算法描述中所給出的形式,即(成分中心x坐標(biāo),成分中心y坐標(biāo),傾斜角(弧度制),短軸σ值,長軸σ值,權(quán)重)。

    A1=(20.3,51.9,-0.97,3.2,80.9,0.043)

    A2=(46.2,35.1,-0.97,3.1,293.2,0.087)

    A3=(74.2,45.0,-0.22,4.0,234.8,0.098)

    B1=(73.7,54.6,0.64,3.3,157.8,0.074)

    B2=(39.3,26.2,0.34,4.1,76.8,0.057)

    B3=(60.2,75.2,1.42,3.8,203.5,0.092)

    C1=(38.5,14.9,1.03,7.4,11.3,0.026)

    C2=(44.7,50.9,0.15,4.1,275.8,0.088)

    C3=(58.3,37.2,0.51,3.4,225.7,0.090)

    D1=(38.5,14.9,1.03,7.4,11.3,0.026)

    D2=(14.4,25.2,-0.21,4.5,8.4,0.021)

    D3=(18.8,37.5,0.21,9.1,48.3,0.066)

    此外,在實(shí)驗(yàn)中還發(fā)現(xiàn),基于目前已經(jīng)很成熟的邊緣檢測算法在進(jìn)行成分?jǐn)M合時(shí)也會根據(jù)邊緣檢測的成熟度來確定有效的成分?jǐn)?shù),如圖6所示。

jsj4-t6.gif

3 結(jié)束語

    目前人工智能和計(jì)算機(jī)視覺技術(shù)在模擬人類視覺進(jìn)行物體識別時(shí),受制約的因素很大,識別效果也很難與人類視覺系統(tǒng)的識別效果相比,這需要從生理學(xué)和認(rèn)知心理學(xué)對人類視覺機(jī)制的描述匯總獲取靈感,結(jié)合成分識別理論和視覺拓?fù)淅碚摰葘W(xué)說的觀點(diǎn),設(shè)計(jì)出更符合人類認(rèn)知原理的、更具有可理解性的原型表征方式。良好的原型表征方式對于圖像的后期處理具有重要的意義,對圖像的高層語義處理奠定了基礎(chǔ),從而使得計(jì)算機(jī)“識別”圖像變?yōu)榭赡堋1疚牡闹饕ぷ骶褪菑亩S混合高斯函數(shù)出發(fā),結(jié)合成分識別理論,用高斯成分來擬合物體的邊緣,從而使得物體的表征由單一的像素表示變?yōu)榭衫斫獾某煞直硎?。從目前的?shí)驗(yàn)效果來看,高斯成分的擬合符合圖像的絕大部分特征,是一種理想的圖像表征手段。在后續(xù)的工作中,要對原型的設(shè)計(jì)繼續(xù)改進(jìn),以期獲得更強(qiáng)大的表達(dá)能力,能夠處理更豐富的訓(xùn)練樣本,讓識別變得更加準(zhǔn)確和更有效率。

參考文獻(xiàn)

[1] 周瑜,劉俊濤,白翔.形狀匹配方法研究與展望[J].自動化學(xué)報(bào),2012,38(6):889-910.

[2] 郭樹旭,趙靜,李雪妍.基于中心-輪廓距離特征統(tǒng)計(jì)的形狀表示方法[J].電子學(xué)報(bào),2015,37(6):1365-1371.

[3] GLAUCO V P,MARCOS A B,CELIA A Z B.Image featuredescriptor based on shape salience points[J].Neurocomputing,2013,120(23):156-163.

[4] TORRES R S,F(xiàn)ALCAO A X,COSTA L F.A graph-basedapproach for multiscale shape analysis[J].Pattern Recognition,2004,37(6):1163-1174.

[5] ALAJLAN N,KAMEL M S,F(xiàn)REEMAN G H.Geometry-based image retrieval in binary image databases[J].IEEE Transactions on Pattern Analysis & Machine Intelligence,2008,30(6):1003-1013.

[6] BELONGIE S,MALIK J,PUZICHA J.Shape matching and object recognition using shape contexts[J].IEEE Transactions on Pattern Analysis & Machine Intelligence,2002,24(4):509-522.

[7] 孫景樂,唐林波,趙保軍,等.改進(jìn)的同心離散圓簇形狀描述方法[J].電子學(xué)報(bào),2013,35(8):1901-1906.

[8] BIEDERMAN I.Recognition-by-components:a theory of human image understanding[J].Psychological review,1987,94(2):115-117.

[9] Wei Hui,Lang Bo,Zuo Qingsong.Coutour detection model with multi-scale integration based on non-classical receptive field[J].Neurocomputing,2013,94(103):247-262.

[10] Wei Hui,Lang Bo,Zuo Qingsong.An image representation of infrastructure based on non-classical receptive field[J].Soft Computing,2014,18(1):109-123.

[11] 郎波,黃靜,危輝.利用多層視覺網(wǎng)絡(luò)模型進(jìn)行圖像局部特征表征的方法[J].計(jì)算機(jī)輔助設(shè)計(jì)與圖形學(xué)學(xué)報(bào),2015,27(4):703-712.

此內(nèi)容為AET網(wǎng)站原創(chuàng),未經(jīng)授權(quán)禁止轉(zhuǎn)載。