《電子技術(shù)應(yīng)用》
您所在的位置:首頁(yè) > 通信與網(wǎng)絡(luò) > 業(yè)界動(dòng)態(tài) > 深度學(xué)習(xí)的應(yīng)用就只在無(wú)人駕駛上面嗎

深度學(xué)習(xí)的應(yīng)用就只在無(wú)人駕駛上面嗎

2019-10-28
來(lái)源:互聯(lián)網(wǎng)

  如果你見(jiàn)過(guò)自動(dòng)駕駛汽車(chē),也許會(huì)對(duì)車(chē)頂上那個(gè)一直在旋轉(zhuǎn)的圓柱體感到好奇。

  

  google的自動(dòng)駕駛汽車(chē)這是一個(gè)雷達(dá)傳感器,無(wú)人駕駛汽車(chē)依靠它在現(xiàn)實(shí)世界中進(jìn)行導(dǎo)航。通過(guò)發(fā)射紅外脈沖并測(cè)量其從物體反彈回來(lái)所用的時(shí)間,傳感器創(chuàng)建出一個(gè)點(diǎn)云(point cloud),形成一個(gè)關(guān)于汽車(chē)周?chē)h(huán)境的3D快照。

  把未經(jīng)處理的點(diǎn)云數(shù)據(jù)變得有實(shí)際意義并不容易,在機(jī)器學(xué)習(xí)時(shí)代以前,往往需要訓(xùn)練有素的工程師通過(guò)手工進(jìn)行枯燥地詳列他們想捕捉的特點(diǎn)。但來(lái)自MIT計(jì)算機(jī)科學(xué)與人工智能實(shí)驗(yàn)室(CSAIL)研究者們的一系列新論文顯示,他們可以用深度學(xué)習(xí)自動(dòng)化處理廣泛的3D成像應(yīng)用中的點(diǎn)云數(shù)據(jù)。

  “今天的計(jì)算機(jī)視覺(jué)和機(jī)器學(xué)習(xí)中,90%的進(jìn)展只處理二維圖像,”MIT的Justin Solomon教授如是說(shuō),他是這一系列由博士生Yue Wang帶頭的論文的通訊作者。“我們的目標(biāo)是解決‘更好地表征3D世界’這個(gè)基本需求,其應(yīng)用不僅僅是在自動(dòng)駕駛,而是任何需要理解3D形狀的領(lǐng)域?!?/p>

  需要從空間里大量的3D點(diǎn)中獲得有意義的信息,先前大多數(shù)從數(shù)據(jù)中提取特征的方式都不是特別成功。在該研究團(tuán)隊(duì)的論文中,他們展現(xiàn)了新的分析點(diǎn)云的“EdgeConv”方式,即通過(guò)動(dòng)態(tài)圖卷積神經(jīng)網(wǎng)絡(luò)(dynamic graph convolutional neural network)來(lái)分類(lèi)和分割獨(dú)立物體。

  “通過(guò)建立鄰近點(diǎn)的圖,算法可以捕獲層次模式( hierarchical patterns )并因此推理出不同類(lèi)型的通用信息用于各種下游任務(wù)。”Toyota Research Institute的機(jī)器學(xué)習(xí)科學(xué)家Wadim Kehl說(shuō)道。

  除了開(kāi)發(fā)“ EdgeConv ”,團(tuán)隊(duì)還探索了點(diǎn)云處理的其他特殊方面。比如,其中一個(gè)挑戰(zhàn)就是大多數(shù)傳感器當(dāng)它們?cè)?D世界中轉(zhuǎn)悠的時(shí)候總是改變角度;每次我們對(duì)一個(gè)物體重新掃描,它的位置可能與上一次我們看見(jiàn)它的時(shí)候不同。把多種點(diǎn)云融合到一個(gè)唯一的世界視角,你需要在一個(gè)叫做“ registration ”的進(jìn)程中對(duì)齊或校準(zhǔn)各種3D點(diǎn)。

  從衛(wèi)星數(shù)據(jù)到醫(yī)療手術(shù),“registration”對(duì)于許多成像形式都至關(guān)重要。例如,當(dāng)醫(yī)生需要對(duì)病人進(jìn)行多次磁共振成像掃描時(shí),“registration”使掃描結(jié)果能夠校準(zhǔn)以找出變化。

  “‘registration’是讓我們能夠?qū)⒉煌瑏?lái)源的三維數(shù)據(jù)集成到一個(gè)共同的坐標(biāo)系中,”Yue Wang說(shuō),“沒(méi)有它,我們實(shí)際上就無(wú)法從所有這些已開(kāi)發(fā)的方法中獲得有意義的信息?!?/p>

  Solomon和Wang的第二篇論文展示了一種稱為“ Deep Closest Point ”(DCP)的新 registration 算法,該算法能夠更好地找到點(diǎn)云的識(shí)別模式、點(diǎn)和邊(稱為“ local features ”),以便將其與其他點(diǎn)云對(duì)齊。這對(duì)于自動(dòng)駕駛汽車(chē)在場(chǎng)景中定位(“ localization ”)以及機(jī)器人手定位和抓取單個(gè)物體等任務(wù)尤其重要。

  DCP的一個(gè)局限是,它假設(shè)我們可以看到一個(gè)完整的形狀,而不僅僅是一側(cè)。這意味著它無(wú)法處理更困難對(duì)齊形狀的部分視角( partial-to-partial registration)的任務(wù)。因此,在第三篇論文中,研究人員提出了一種改進(jìn)的算法,稱之為 Partial Registration Network (PRNet) 。

  Solomon說(shuō),與2D圖像和照片相比,現(xiàn)有的3D數(shù)據(jù)往往不結(jié)構(gòu)化和難以處理。他的團(tuán)隊(duì)試圖找出如何在沒(méi)有很多機(jī)器學(xué)習(xí)技術(shù)所需的可控環(huán)境下,從所有無(wú)序的3D數(shù)據(jù)中獲得有意義的信息。

  DCP和PRNet成功背后的一個(gè)關(guān)鍵觀察是,點(diǎn)云處理的一個(gè)重要方面是背景。點(diǎn)云A上的幾何特征暗示了將其與點(diǎn)云B對(duì)齊的最佳方式,這可能與將其與點(diǎn)云C對(duì)齊所需的特征不同。例如,在 partial registration 中,一個(gè)點(diǎn)云中形狀的有趣部分可能在另一個(gè)點(diǎn)云中不可見(jiàn),這使其對(duì)registration無(wú)效。

  Wang 說(shuō),該團(tuán)隊(duì)的工具已經(jīng)被計(jì)算機(jī)視覺(jué)社區(qū)和其他領(lǐng)域的許多研究人員使用。甚至物理學(xué)家也在使用它們來(lái)實(shí)現(xiàn)csail團(tuán)隊(duì)從未考慮過(guò)的應(yīng)用:粒子物理學(xué)。

  接下來(lái),研究人員希望在真實(shí)世界的數(shù)據(jù)上使用這些算法,包括從自動(dòng)駕駛汽車(chē)上收集的數(shù)據(jù)。 Wang 說(shuō),他們還計(jì)劃探索利用自我監(jiān)督學(xué)習(xí)訓(xùn)練系統(tǒng)的潛力,以盡量減少所需的人類(lèi)注釋。

  Solomon和Wang是DCP和PRNET論文的兩位唯一作者。他們?cè)?EdgeConv 論文上的共同作者是研究助理 Yongbin Sun 和麻省理工學(xué)院的 Sanjay Sarma 教授,以及加州大學(xué)伯克利分校的 Ziwei Liu 博士后和倫敦帝國(guó)理工學(xué)院的 Michael M. Bronstein 。

  這些項(xiàng)目在一定程度上得到了美國(guó)空軍、美國(guó)陸軍研究辦公室、亞馬遜、谷歌研究公司、IBM、國(guó)家科學(xué)基金會(huì)、斯科爾特理工學(xué)院Next Generation項(xiàng)目和豐田研究所的支持。


本站內(nèi)容除特別聲明的原創(chuàng)文章之外,轉(zhuǎn)載內(nèi)容只為傳遞更多信息,并不代表本網(wǎng)站贊同其觀點(diǎn)。轉(zhuǎn)載的所有的文章、圖片、音/視頻文件等資料的版權(quán)歸版權(quán)所有權(quán)人所有。本站采用的非本站原創(chuàng)文章及圖片等內(nèi)容無(wú)法一一聯(lián)系確認(rèn)版權(quán)者。如涉及作品內(nèi)容、版權(quán)和其它問(wèn)題,請(qǐng)及時(shí)通過(guò)電子郵件或電話通知我們,以便迅速采取適當(dāng)措施,避免給雙方造成不必要的經(jīng)濟(jì)損失。聯(lián)系電話:010-82306118;郵箱:aet@chinaaet.com。