3 月 13 日訊,谷歌 AI 在其官方博客上發(fā)布了一款名為 MediaPipe Objectron 的算法框架,利用這個(gè)算法框架,只要一部手機(jī),就能實(shí)時(shí)從 2D 視頻里識(shí)別 3D 物品的位置、大小和方向。這一技術(shù)可以幫助機(jī)器人,自動(dòng)駕駛汽車,圖像檢索和增強(qiáng)現(xiàn)實(shí)等領(lǐng)域?qū)崿F(xiàn)一系列的應(yīng)用。
我們知道,3D 數(shù)據(jù)集相對(duì)于 2D 來說,非常有限。
為了解決這個(gè)問題,谷歌 AI 的研究人員使用移動(dòng)增強(qiáng)現(xiàn)實(shí)(AR)會(huì)話數(shù)據(jù)(session data),開發(fā)了新的數(shù)據(jù) pipeline。

目前來說,大部分智能手機(jī)現(xiàn)在都具備了增強(qiáng)現(xiàn)實(shí)的功能,在這個(gè)過程中捕捉額外的信息,包括相機(jī)姿態(tài)、稀疏的 3D 點(diǎn)云、估計(jì)的光照和平面。
為了標(biāo)記 groud truth 數(shù)據(jù),研究人員構(gòu)建了一個(gè)新的注釋工具,并將它和 AR 會(huì)話數(shù)據(jù)拿來一起使用,能讓注釋器快速地標(biāo)記對(duì)象的 3D 邊界框。
MediaPipe 是谷歌去年 7 月份發(fā)布的一個(gè)多媒體框架,它在安卓、IOS 網(wǎng)頁等各種平臺(tái)上都能應(yīng)用機(jī)器學(xué)習(xí)媒體模型。昨日 MediaPipe 發(fā)布 0.7 版,并加入了移動(dòng)端試試 3D 檢測模型。目前 MediaPipe 包含人臉檢測、手部檢測、頭發(fā)分割和視頻自動(dòng)橫豎屏轉(zhuǎn)換等功能。主要用于構(gòu)建處理不同形式的感知數(shù)據(jù)。
在計(jì)算機(jī)視覺領(lǐng)域里,跟蹤 3D 目標(biāo)是一個(gè)棘手的問題,尤其是在有限的計(jì)算資源上,例如,智能手機(jī)上。由于缺乏數(shù)據(jù),以及需要解決物體多樣的外觀和形狀時(shí),而又僅有可 2D 圖像可用時(shí),情況就會(huì)變得更加困難。
為了解決這個(gè)問題,谷歌 Objectron 團(tuán)隊(duì)開發(fā)了一套工具,可以用來在 2D 視頻里為對(duì)象標(biāo)注 3D 邊界框,而有了 3D 邊界框,就可以很容易地計(jì)算出物體的姿態(tài)和大小。注釋器可以在 3D 視圖中繪制 3D 邊界框,并通過查看 2D 視頻幀中的投影來驗(yàn)證其位置。對(duì)于靜態(tài)對(duì)象,他們只需在單個(gè)幀中注釋目標(biāo)對(duì)象即可。
為了補(bǔ)充現(xiàn)實(shí)世界的訓(xùn)練數(shù)據(jù)以提高 AI 模型預(yù)測的準(zhǔn)確性,該團(tuán)隊(duì)還開發(fā)了一種名為 AR Synthetic Data Generation(增強(qiáng)現(xiàn)實(shí)合成數(shù)據(jù)生成)的新穎方法。它可以將虛擬對(duì)象放置到具有 AR 會(huì)話數(shù)據(jù)的場景中,允許你利用照相機(jī),檢測平面和估計(jì)照明,來生成目標(biāo)對(duì)象的可能的位置,以及生產(chǎn)具有與場景匹配的照明。這種方法可生成高質(zhì)量的合成數(shù)據(jù),其包含的渲染對(duì)象能夠尊重場景的幾何形狀并無縫地適配實(shí)際背景。
通過上述兩個(gè)方法,谷歌結(jié)合了現(xiàn)實(shí)世界數(shù)據(jù)和增強(qiáng)現(xiàn)實(shí)合成數(shù)據(jù),將檢測準(zhǔn)確度度提高了 10%。
增強(qiáng)現(xiàn)實(shí)合成數(shù)據(jù)生成的一個(gè)示例:虛擬白褐色谷物盒渲染到真實(shí)場景中,緊鄰真實(shí)藍(lán)皮書。
準(zhǔn)確度的提升是一方面,谷歌表示,當(dāng)前版本的 Objectron 模型還足夠“輕巧”,可以在移動(dòng)設(shè)備上實(shí)時(shí)運(yùn)行。借助 LG V60 ThinQ,三星 Galaxy S20 +和 Sony Xperia 1 II 等手機(jī)中的 Adreno 650 移動(dòng)圖形芯片,它能夠每秒處理約 26 幀圖像,基本做到了實(shí)時(shí)檢測。
接下去,谷歌團(tuán)隊(duì)表示:" 我們希望通過與更多的研究員和開發(fā)者共享我們的解決方案,這將激發(fā)新的應(yīng)用案例和新的研究工作。我們計(jì)劃在未來將模型擴(kuò)展到更多類別,并進(jìn)一步提高設(shè)備性能。"
