??? 摘 要: 闡述了雙目立體視" title="體視">體視覺技術(shù)在國內(nèi)外應(yīng)用的最新動態(tài)及其優(yōu)越性。指出雙目體視技術(shù)的實現(xiàn)分為圖像獲取、攝像機標定" title="攝像機標定">攝像機標定、特征提取、立體匹配" title="立體匹配">立體匹配和三維重建幾個步驟,詳細分析了各個步驟的技術(shù)特點、存在的問題和解決方案,并對雙目體視技術(shù)的發(fā)展做了展望。
??? 關(guān)鍵詞: 雙目立體視覺? 計算機視覺? 立體匹配? 攝像機標定? 特征提取
?
??? 雙目立體視覺是計算機視覺的一個重要分支,即由不同位置的兩臺或者一臺攝像機(CCD)經(jīng)過移動或旋轉(zhuǎn)拍攝同一幅場景,通過計算空間點在兩幅圖像中的視差,獲得該點的三維坐標值。80年代美國麻省理工學(xué)院人工智能實驗室的Marr提出了一種視覺計算理論并應(yīng)用在雙眼匹配上,使兩張有視差的平面圖產(chǎn)生有深度的立體圖形,奠定了雙目立體視覺發(fā)展的理論基礎(chǔ)。相比其他類的體視方法,如透鏡板三維成像、投影式三維顯示、全息照相術(shù)等,雙目體視直接模擬人類雙眼處理景物的方式,可靠簡便,在許多領(lǐng)域均極具應(yīng)用價值,如微操作系統(tǒng)的位姿檢測與控制、機器人導(dǎo)航與航測、三維測量學(xué)及虛擬現(xiàn)實等。
1 雙目體視的技術(shù)特點
??? 雙目體視技術(shù)的實現(xiàn)可分為以下步驟:圖像獲取、攝像機標定、特征提取、圖像匹配和三維重建,下面依次介紹各個步驟的實現(xiàn)方法和技術(shù)特點。
1.1 圖像獲取
??? 雙目體視的圖像獲取是由不同位置的兩臺或者一臺攝像機(CCD)經(jīng)過移動或旋轉(zhuǎn)拍攝同一幅場景,獲取立體圖像對。其針孔模型如圖1。假定攝像機C1與C2的角距和內(nèi)部參數(shù)都相等,兩攝像機的光軸" title="光軸">光軸互相平行,二維成像平面X1O1Y1和X2O2Y2重合,P1與P2分別是空間點P在C1與C2上的成像點。但一般情況下,針孔模型兩個攝像機的內(nèi)部參數(shù)不可能完全相同,攝像機安裝時無法看到光軸和成像平面,故實際中難以應(yīng)用。
?
??? 上海交大在理論上對會聚式雙目體視系統(tǒng)的測量精度與系統(tǒng)結(jié)構(gòu)參數(shù)之間的關(guān)系作了詳盡分析,并通過試驗指出,對某一特定點進行三角測量。該點測量誤差與兩CCD光軸夾角是一復(fù)雜的函數(shù)關(guān)系;若兩攝像頭光軸夾角一定,則被測坐標系與攝像頭坐標系之間距離越大,測量得到點距離的誤差就越大。在滿足測量范圍的前提下,應(yīng)選擇兩CCD之間夾角在50°~80°之間。
1.2 攝像機的標定
??? 對雙目體視而言,CCD攝像機、數(shù)碼相機是利用計算機技術(shù)對物理世界進行重建前的基本測量工具,對它們的標定是實現(xiàn)立體視覺基本而又關(guān)鍵的一步。通常先采用單攝像機的標定方法,分別得到兩個攝像機的內(nèi)、外參數(shù);再通過同一世界坐標中的一組定標點來建立兩個攝像機之間的位置關(guān)系。目前常用的單攝像機標定方法主要有:
??? (1)攝影測量學(xué)的傳統(tǒng)設(shè)備標定法。利用至少17個參數(shù)描述攝像機與三維物體空間的約束關(guān)系,計算量非常大。
??? (2)直接線性變換法。涉及的參數(shù)少、便于計算。
??? (3)透視變換矩陣法。從透視變換的角度來建立攝像機的成像模型,無需初始值,可進行實時計算。
??? (4)相機標定的兩步法。首先采用透視矩陣變換的方法求解線性系統(tǒng)的攝像機參數(shù),再以求得的參數(shù)為初始值,考慮畸變因素,利用最優(yōu)化方法求得非線性解,標定精度較高。
??? (5)雙平面標定法。
??? 在雙攝像機標定中,需要精確的外部參數(shù)。由于結(jié)構(gòu)配置很難準確,兩個攝像機的距離和視角受到限制,一般都需要至少6個以上(建議取10個以上)的已知世界坐標點,才能得到比較滿意的參數(shù)矩陣,所以實際測量過程不但復(fù)雜,而且效果并不一定理想,大大地限制了其應(yīng)用范圍。此外雙攝像機標定還需考慮鏡頭的非線性校正、測量范圍和精度的問題,目前戶外的應(yīng)用還很少。
??? 上海大學(xué)通信與信息工程學(xué)院提出了基于神經(jīng)網(wǎng)絡(luò)的雙目立體視覺攝像機標定方法。首先對攝像機進行線性標定,然后通過網(wǎng)絡(luò)訓(xùn)練建立起三維空間點位置補償?shù)亩鄬忧梆伾窠?jīng)網(wǎng)絡(luò)模型。此方法對雙目立體視覺攝像機的標定具有較好的通用性,但是精確測量控制點的世界坐標和圖像坐標是一項嚴格的工作。因此神經(jīng)網(wǎng)絡(luò)中訓(xùn)練樣本集的獲得非常困難。
1.3 特征點" title="特征點">特征點提取
??? 立體像對中需要提取的特征點應(yīng)滿足以下要求:與傳感器類型及抽取特征所用技術(shù)等相適應(yīng);具有足夠的魯棒性和一致性。需要說明的是:在進行特征點像的坐標提取前,需對獲取的圖像進行預(yù)處理。因為在圖像獲取過程中,存在一系列的噪聲源,通過此處理可顯著改進圖像質(zhì)量,使圖像中特征點更加突出。
1.4?立體匹配
??? 立體匹配是雙目體視中最關(guān)鍵、困難的一步。與普通的圖像配準不同,立體像對之間的差異是由攝像時觀察點的不同引起的,而不是由其它如景物本身的變化、運動所引起的。根據(jù)匹配基元的不同,立體匹配可分為區(qū)域匹配、特征匹配和相位匹配三大類。
??? 區(qū)域匹配算法的實質(zhì)是利用局部窗口之間灰度信息的相關(guān)程度,它在變化平緩且細節(jié)豐富的地方可以達到較高的精度。但該算法的匹配窗大小難以選擇,通常借助于窗口形狀技術(shù)來改善視差不連續(xù)處的匹配;其次是計算量大、速度慢,采取由粗至精分級匹配策略能大大減少搜索空間的大小,與匹配窗大小無關(guān)的互相關(guān)運算能顯著提高運算速度。
??? 特征匹配不直接依賴于灰度,具有較強的抗干擾性,計算量小,速度快。但也同樣存在一些不足:特征在圖像中的稀疏性決定特征匹配只能得到稀疏的視差場;特征的提取和定位過程直接影響匹配結(jié)果的精確度。改善辦法是將特征匹配的魯棒性和區(qū)域匹配的致密性充分結(jié)合,利用對高頻噪聲不敏感的模型來提取和定位特征。
??? 相位匹配是近二十年才發(fā)展起來的一類匹配算法。相位作為匹配基元,本身反映信號的結(jié)構(gòu)信息,對圖像的高頻噪聲有很好的抑制作用,適于并行處理,能獲得亞像素級精度的致密視差。但存在相位奇點和相位卷繞的問題,需加入自適應(yīng)濾波器解決。
1.5?三維重建
??? 在得到空間任一點在兩個圖像中的對應(yīng)坐標和兩攝像機參數(shù)矩陣的條件下,即可進行空間點的重建。通過建立以該點的世界坐標為未知數(shù)的4個線性方程,可以用最小二乘法求解得該點的世界坐標。實際重建通常采用外極線約束法。空間點、兩攝像機的光心這三點組成的平面分別與兩個成像平面的交線稱為該空間點在這兩個成像平面中的極線。一旦兩攝像機的內(nèi)外參數(shù)確定,就可通過兩個成像平面上的極線的約束關(guān)系建立對應(yīng)點之間的關(guān)系,并由此聯(lián)立方程,求得圖像點的世界坐標值。對圖像的全像素的三維重建目前僅能針對某一具體目標,計算量大且效果不明顯。
2 雙目體視的最新應(yīng)用
2.1國外研究動態(tài)
??? 雙目體視目前主要應(yīng)用于四個領(lǐng)域:機器人導(dǎo)航、微操作系統(tǒng)的參數(shù)檢測、三維測量和虛擬現(xiàn)實。
??? 日本大阪大學(xué)自適應(yīng)機械系統(tǒng)研究院研制了一種自適應(yīng)雙目視覺伺服系統(tǒng)[1],利用雙目體視的原理,以每幅圖像中相對靜止的三個標志為參考,實時計算目標圖像的雅可比矩陣,從而預(yù)測出目標下一步運動方向,實現(xiàn)了對運動方式未知的目標的自適應(yīng)跟蹤。該系統(tǒng)僅要求兩幅圖像中都有靜止的參考標志,無需攝像機參數(shù)。而傳統(tǒng)的視覺跟蹤伺服系統(tǒng)需事先知道攝像機的運動、光學(xué)等參數(shù)和目標的運動方式。
??? 日本奈良科技大學(xué)信息科學(xué)學(xué)院提出了一種基于雙目立體視覺的增強現(xiàn)實系統(tǒng)(AR)注冊方法[2],通過動態(tài)修正特征點的位置提高注冊精度。該系統(tǒng)將單攝像機注冊(MR)與立體視覺注冊(SR)相結(jié)合,利用MR和三個標志點算出特征點在每個圖像上的二維坐標和誤差,利用SR和圖像對計算出特征點的三維位置總誤差,反復(fù)修正特征點在圖像對上的二維坐標,直至三維總誤差小于某個閾值。該方法比僅使用MR或SR方法大大提高了AR系統(tǒng)注冊深度和精度。實驗結(jié)果如圖2,白板上三角形的三頂點被作為單攝像機標定的特征點,三個三角形上的模型為虛擬場景,烏龜是真實場景,可見基本上難以區(qū)分出虛擬場景(恐龍)和現(xiàn)實場景(烏龜)。
?
??? 日本東京大學(xué)將實時雙目立體視覺和機器人整體姿態(tài)信息集成,開發(fā)了仿真機器人動態(tài)行走導(dǎo)航系統(tǒng)[3]。該系統(tǒng)實現(xiàn)分兩個步驟:首先,利用平面分割算法分離所拍攝圖像對中的地面與障礙物,再結(jié)合機器人軀體姿態(tài)的信息,將圖像從攝像機的二維平面坐標系轉(zhuǎn)換到描述軀體姿態(tài)的世界坐標系,建立機器人周圍區(qū)域的地圖;其次根據(jù)實時建立的地圖進行障礙物檢測,從而確定機器人的行走方向。
??? 日本岡山大學(xué)使用立體顯微鏡、兩個CCD攝像頭、微操作器等研制了使用立體顯微鏡控制微操作器的視覺反饋系統(tǒng),用于對細胞進行操作、對種子進行基因注射和微裝配等。
??? 麻省理工學(xué)院計算機系提出了一種新的用于智能交通工具的傳感器融合方法[4],由雷達系統(tǒng)提供目標深度的大致范圍,利用雙目立體視覺提供粗略的目標深度信息,結(jié)合改進的圖像分割算法,能夠在高速環(huán)境下對視頻圖像中的目標位置進行分割,而傳統(tǒng)的目標分割算法難以在高速實時環(huán)境中得到令人滿意的結(jié)果,系統(tǒng)框圖如圖3。
?
??? 華盛頓大學(xué)與微軟公司合作為火星衛(wèi)星“探測者”號研制了寬基線立體視覺系統(tǒng)[5],使“探測者”號能夠在火星上對其即將跨越的幾千米內(nèi)的地形進行精確的定位和導(dǎo)航。系統(tǒng)使用同一個攝像機在“探測者”的不同位置上拍攝圖像對,拍攝間距越大,基線越寬,能觀測到越遠的地貌。系統(tǒng)采用非線性優(yōu)化得到兩次拍攝圖像時攝像機的相對準確的位置,利用魯棒性強的最大似然概率法結(jié)合高效的立體搜索進行圖像匹配,得到亞像素精度的視差,并根據(jù)此視差計算圖像對中各點的三維坐標。相比傳統(tǒng)的體視系統(tǒng),能夠更精確地繪制“探測者”號周圍的地貌和以更高的精度觀測到更遠的地形。
2.2 國內(nèi)研究動態(tài)
??? 浙江大學(xué)機械系完全利用透視成像原理,采用雙目體視方法實現(xiàn)了對多自由度機械裝置的動態(tài)、精確位姿檢測,僅需從兩幅對應(yīng)圖像中抽取必要的特征點的三維坐標,信息量少,處理速度快,尤其適于動態(tài)情況。與手眼系統(tǒng)相比,被測物的運動對攝像機沒有影響,且不需知道被測物的運動先驗知識和限制條件,有利于提高檢測精度。
??? 東南大學(xué)電子工程系基于雙目立體視覺,提出了一種灰度相關(guān)多峰值視差絕對值極小化立體匹配新方法,可對三維不規(guī)則物體(偏轉(zhuǎn)線圈)的三維空間坐標進行非接觸精密測量。
??? 哈工大采用異構(gòu)雙目活動視覺系統(tǒng)實現(xiàn)了全自主足球機器人導(dǎo)航[6]。將一個固定攝像機和一個可以水平旋轉(zhuǎn)的攝像機,分別安裝在機器人的頂部和中下部,可以同時監(jiān)視不同方位視點,體現(xiàn)出比人類視覺優(yōu)越的一面。通過合理的資源分配及協(xié)調(diào)機制,使機器人在視野范圍、測距精度及處理速度方面達到最佳匹配。雙目協(xié)調(diào)技術(shù)可使機器人同時捕捉多個有效目標,觀測相同目標時通過數(shù)據(jù)融合,也可提高測量精度。在實際比賽中其他傳感器失效的情況下,僅僅依靠雙目協(xié)調(diào)仍然可以實現(xiàn)全自主足球機器人導(dǎo)航。
??? 火星863計劃課題“人體三維尺寸的非接觸測量”,采用“雙視點投影光柵三維測量”原理,由雙攝像機獲取圖像對,通過計算機進行圖像數(shù)據(jù)處理,不僅可以獲取服裝設(shè)計所需的特征尺寸,還可根據(jù)需要獲取人體圖像上任意一點的三維坐標。該系統(tǒng)已通過中國人民解放軍總后勤部軍需部鑒定??蛇_到的技術(shù)指標為:數(shù)據(jù)采集時間小于5s/人;提供身高、胸圍、腰圍、臀圍等圍度的測量精度不低于1.0cm。
3 雙目體視的發(fā)展方向
??? 就雙目立體視覺技術(shù)的發(fā)展現(xiàn)狀而言,要構(gòu)造出類似于人眼的通用雙目立體視覺系統(tǒng),還有很長的路要走,進一步的研究方向可歸納如下:
??? (1)如何建立更有效的雙目體視模型,能更充分地反映立體視覺不確定性的本質(zhì)屬性,為匹配提供更多的約束信息,降低立體匹配的難度;
??? (2)探索新的適用于全面立體視覺的計算理論和匹配策略,選擇有效的匹配準則和算法結(jié)構(gòu),以解決存在灰度失真、幾何畸變(透視、旋轉(zhuǎn)、縮放等)、噪聲干擾、特殊結(jié)構(gòu)(平坦區(qū)域、重復(fù)相似結(jié)構(gòu)等)及遮掩景物的匹配問題;
??? (3)算法向并行化發(fā)展,提高速度,減少運算量,增強系統(tǒng)的實用性;
??? (4) 強調(diào)場景與任務(wù)的約束,針對不同的應(yīng)用目的,建立有目的的和面向任務(wù)的體視系統(tǒng)。
??? 雙目體視這一有著廣闊應(yīng)用前景的學(xué)科,隨著光學(xué)、電子學(xué)以及計算機技術(shù)的發(fā)展,將不斷進步,逐漸實用化,不僅將成為工業(yè)檢測、生物醫(yī)學(xué)、虛擬現(xiàn)實等領(lǐng)域的關(guān)鍵技術(shù),還有可能應(yīng)用于航天遙測、軍事偵察等領(lǐng)域。目前在國外,雙目體視技術(shù)已廣泛應(yīng)用于生產(chǎn)、生活中,而我國正處于初始階段,尚需廣大科技工作者共同努力,為其發(fā)展做出貢獻。
參考文獻
1 Minoru Asada, Takamaro Tanaka. Visual Tracking Of Unknown Moving Object By Adaptive Binocular Visual Servoing.Proceeding of the 1999 IEEE International Conference on?Multisensor Fusion and Intelligent Systems;
2 Vallerand Steve, Kanbara Masayuki, Yokoya Naokazu. Binocular Vision-Based Augmented Reality System With An Increased Registration Depth Using Dynamic Correction Of Feature Positions. Proceedings.Of the 2003 IEEE,Virtual Reality.March 2003; Vol.22~26,p271~272
3 Kei Okada, Masayuki Inaba. Integration Of Real-Time Binocular Stereo Vision And Whole Body Information For Dynamic Walking Navigation Of Humanoid Robot.IEEE Conference on Multisensor Fusion and Intergration for Intelligent Systems 2003
4 Yajun Fang, Ichiro Masaki, and Berthold Horn. Depth-Based Target Segmentation for Intelligent Vehicles: Fusion of Radar?and Binocular Stereo. IEEE Transactions On Intelligent?Transportation Systems, 2002;3(3)
5 Clark F. Olson, Habib Abi-Rached, Ming Ye, Jonathan P.Hendrich. Wide-Baseline Stereo Vision For Mars Rovers.Proceedings Of The 2003 IEEE/RSJ Intl. Conference On Intelligent Robots And Systerms. October 2003
6 高慶吉,洪炳熔,阮玉峰. 基于異構(gòu)雙目視覺的全自主足球機器人導(dǎo)航. 哈爾濱工業(yè)大學(xué)學(xué)報, 2003;35(9)