要令arget="_blank">人工智能系統(tǒng)如同人類(lèi)一樣與世界交互,人工智能領(lǐng)域需要發(fā)展出一種全新的第一人稱(chēng)感知范式。這意味著人工智能在實(shí)時(shí)運(yùn)動(dòng)、交互時(shí),要以第一人稱(chēng)視角理解日?;顒?dòng)。
世界是多維的,生活中同樣的景物在不同的視角下會(huì)呈現(xiàn)出不同的形態(tài)。若要讓人工智能更像人類(lèi),就要讓其視角更接近人。從人類(lèi)的角度觀察環(huán)境,人工智能或許會(huì)看到一個(gè)新的天地。
近日,由臉譜(Facebook)和9個(gè)國(guó)家的13所大學(xué)及實(shí)驗(yàn)室組成的學(xué)術(shù)聯(lián)盟宣布,11月將開(kāi)源讓人工智能擁有以第一人稱(chēng)視角與世界進(jìn)行交互能力的Ego4D(Egocentric 4D Perception)項(xiàng)目。這個(gè)項(xiàng)目包含超過(guò)3025小時(shí)的第一人稱(chēng)視頻,涉及來(lái)自73個(gè)城市的700多名參與者的日常生活。這些視頻將有助于使人工智能認(rèn)知世界的方式更加趨向于人類(lèi)。
那么,目前人工智能主要通過(guò)哪種視角認(rèn)知世界,不同視角對(duì)于人工智能認(rèn)知環(huán)境會(huì)產(chǎn)生哪些影響?人工智能感知環(huán)境、認(rèn)識(shí)世界主要通過(guò)哪些技術(shù)?想要認(rèn)知世界的方式更像人類(lèi),人工智能還需突破哪些瓶頸?
人工智能通常采用第三人稱(chēng)視角
“要令人工智能系統(tǒng)如同人類(lèi)一樣與世界交互,人工智能領(lǐng)域需要發(fā)展出一種全新的第一人稱(chēng)感知范式。這意味著人工智能在實(shí)時(shí)運(yùn)動(dòng)、交互時(shí),要以第一人稱(chēng)視角理解日?;顒?dòng)?!蹦樧V首席研究科學(xué)家克里斯汀·格勞曼曾言。
今天的計(jì)算機(jī)視覺(jué)系統(tǒng)大多是利用數(shù)百萬(wàn)張以第三人稱(chēng)視角拍攝的照片和視頻進(jìn)行學(xué)習(xí)的?!盀榱藰?gòu)建新的感知范式,我們需要教會(huì)人工智能像人類(lèi)一樣,從第一人稱(chēng)角度即‘我’的視角,沉浸式觀察理解世界,并與之交互,這種認(rèn)知方式也可以稱(chēng)為自我中心認(rèn)知?!?0月26日,遠(yuǎn)望智庫(kù)人工智能事業(yè)部部長(zhǎng)、圖靈機(jī)器人首席戰(zhàn)略官譚茗洲在接受科技日?qǐng)?bào)記者采訪時(shí)指出。
如何理解人工智能的第一人稱(chēng)和第三人稱(chēng)視角?譚茗洲解釋道:“第一人稱(chēng)視角代入感很強(qiáng),比如在玩游戲時(shí),你如身臨其境,看到的游戲畫(huà)面就是你真實(shí)世界看到的畫(huà)面。第三人稱(chēng)視角又叫作上帝視角,仿佛你一直飄在角色身邊一樣,如影隨形,可以看到角色本身及周?chē)那闆r。例如,第三人稱(chēng)視角下藏在掩體后可以看到掩體前面的情況;而在第一人稱(chēng)視角下,囿于視角范圍,在掩體后則只能看到掩體本身?!?/p>
“再如自動(dòng)駕駛,其視覺(jué)系統(tǒng)如果只從旁觀者的(如車(chē)的角度)收集數(shù)據(jù),即便通過(guò)數(shù)十萬(wàn)個(gè)基于旁觀視角看到的車(chē)輛行進(jìn)圖像或視頻進(jìn)行訓(xùn)練,人工智能可能依然不知道如何去做,很難達(dá)到現(xiàn)在的自動(dòng)駕駛水平。因?yàn)檫@種旁觀者的視角與坐在車(chē)內(nèi)方向盤(pán)前的視角很不一樣,第一人稱(chēng)視角下,真人駕駛員做出的反應(yīng)還包括點(diǎn)剎、猛剎等行為,這些數(shù)據(jù)是從旁觀者視角無(wú)法搜集的?!弊T茗洲進(jìn)一步說(shuō)。
“以前人工智能界很少以第一人稱(chēng)視角收集數(shù)據(jù)集,這個(gè)項(xiàng)目彌補(bǔ)了人工智能視角體系的短板。未來(lái)AR、VR的發(fā)展十分重要,如果人工智能可以從‘我’出發(fā),以第一人稱(chēng)視角來(lái)觀察理解世界,將開(kāi)啟人類(lèi)和人工智能沉浸式體驗(yàn)的新時(shí)代?!弊T茗洲指出。
克里斯汀·格勞曼也表示:“下一代人工智能系統(tǒng)需要從一種完全不同的數(shù)據(jù)中學(xué)習(xí),即從事件中心視覺(jué)而不是邊線視覺(jué)展示世界的視頻中學(xué)習(xí)。”
建立真實(shí)世界數(shù)據(jù)集
目前讓人工智能感知環(huán)境、認(rèn)識(shí)世界,建立類(lèi)人化的認(rèn)知體系主要通過(guò)什么“抓手”展開(kāi)?
業(yè)內(nèi)專(zhuān)家指出,歷史證明,基準(zhǔn)和數(shù)據(jù)集是人工智能行業(yè)創(chuàng)新的關(guān)鍵催化劑。今天,幾乎可以識(shí)別圖像中任何對(duì)象的計(jì)算機(jī)視覺(jué)系統(tǒng)都是建立在數(shù)據(jù)集和基準(zhǔn)之上的,數(shù)據(jù)集和基準(zhǔn)為研究人員提供了一個(gè)研究真實(shí)世界圖像的實(shí)驗(yàn)臺(tái)。
“臉譜日前發(fā)布的這個(gè)項(xiàng)目,其實(shí)本身就是建立一個(gè)數(shù)據(jù)集,旨在訓(xùn)練人工智能模型更像人類(lèi)。其開(kāi)發(fā)了5個(gè)圍繞第一人稱(chēng)視覺(jué)體驗(yàn)的基準(zhǔn)挑戰(zhàn),即把第一人稱(chēng)視角拆解成5個(gè)目標(biāo),開(kāi)展相應(yīng)的訓(xùn)練集競(jìng)賽?!弊T茗洲指出。
Ego4D的5個(gè)基準(zhǔn)是:情景記憶,什么時(shí)候發(fā)生?預(yù)測(cè),我接下來(lái)可能會(huì)做什么?手—物交互,我在做什么?視聽(tīng)日記,誰(shuí)在什么時(shí)候說(shuō)了什么?社交互動(dòng),誰(shuí)在和誰(shuí)互動(dòng)?
譚茗洲強(qiáng)調(diào),上述基準(zhǔn)測(cè)試將促進(jìn)開(kāi)發(fā)人工智能助手所必需的構(gòu)建模塊的研究。人工智能助手不僅可以理解現(xiàn)實(shí)世界中的指令并與之交互,同時(shí)可以在元宇宙中實(shí)現(xiàn)對(duì)元宇宙中指令的理解和交互。
為了建立這個(gè)數(shù)據(jù)集,與臉譜合作的大學(xué)團(tuán)隊(duì)向研究參與者分發(fā)了現(xiàn)成的頭戴式攝像頭和其他可穿戴傳感器,以便捕獲第一人稱(chēng)的、未經(jīng)編輯的日常生活視頻。項(xiàng)目的重點(diǎn)是參與者從日常場(chǎng)景中捕獲視頻,比如購(gòu)物、烹飪、邊玩游戲邊聊天,以及與家人和朋友進(jìn)行其他團(tuán)體活動(dòng)等。
視頻采集了攝像頭佩戴者在特定環(huán)境中選擇注視的對(duì)象,以及攝像頭佩戴者如何從自我中心角度與人和物互動(dòng)。到目前為止,攝像頭佩戴者已經(jīng)執(zhí)行了數(shù)百項(xiàng)活動(dòng),并與數(shù)百種不同的對(duì)象進(jìn)行交互,項(xiàng)目的所有數(shù)據(jù)都是公開(kāi)的。
“臉譜這項(xiàng)研究能夠更快地推動(dòng)人工智能領(lǐng)域自我中心認(rèn)知研究的進(jìn)步。這將對(duì)我們未來(lái)的生活、工作和娛樂(lè)方式產(chǎn)生積極影響。”譚茗洲表示。
讓人工智能認(rèn)知能力更像人
人工智能發(fā)展的終極目標(biāo)是讓人類(lèi)受益,讓我們能夠應(yīng)對(duì)現(xiàn)實(shí)世界中日益復(fù)雜的挑戰(zhàn)。想象一下,通過(guò)AR設(shè)備能夠在琴、棋、書(shū)、畫(huà)課堂中準(zhǔn)確顯示如何彈琴、下棋、握筆和勾勒;形象生動(dòng)地指導(dǎo)家庭主婦根據(jù)食譜烘焙燒烤、烹飪菜肴;健忘的老人借以眼前全息圖的幫助回憶過(guò)去……
臉譜強(qiáng)調(diào),希望通過(guò)Ego4D項(xiàng)目為學(xué)術(shù)界和行業(yè)專(zhuān)家開(kāi)辟一條全新的道路,幫助構(gòu)建更智能、更靈活和更具交互性的計(jì)算機(jī)視覺(jué)系統(tǒng)。隨著人工智能越加深入理解人類(lèi)的日常生活方式,相信將這個(gè)項(xiàng)目能以前所未有的方式對(duì)人工智能的體驗(yàn)進(jìn)行情境化和個(gè)性化。然而,目前的研究還只是觸及自我中心認(rèn)知的皮毛。
如何才能讓人工智能的認(rèn)知能力更像人類(lèi)?“首先是注意力,人工智能的注意力機(jī)制更接近直覺(jué),而人類(lèi)的注意力是有選擇性的。目前來(lái)說(shuō),大部分人工智能注意力機(jī)制,是在訓(xùn)練過(guò)程中重復(fù)告訴人工智能應(yīng)該注意哪些地方,哪些東西是有關(guān)聯(lián)的。未來(lái)也許可以讓參與試驗(yàn)的人戴上特殊的可以捕捉眼球關(guān)注點(diǎn)的裝置,來(lái)進(jìn)一步收集相關(guān)數(shù)據(jù)?!弊T茗洲指出。
“第二,還需要以事件和行為的關(guān)聯(lián)為研究中心,定義人工智能的行為。一件事情的發(fā)生包括多個(gè)行為,要用人類(lèi)反饋的方式訓(xùn)練人工智能系統(tǒng),使人工智能的行為與我們的意圖一致。”譚茗洲進(jìn)一步表示。
譚茗洲強(qiáng)調(diào):“此外,聽(tīng)覺(jué)和視覺(jué)、語(yǔ)言和行為等之間還需要配合、響應(yīng)、聯(lián)動(dòng),這就要構(gòu)建多模態(tài)交互模型,縱深研究視角為何會(huì)聚焦投向并與意圖識(shí)別相結(jié)合,形成與行為之間聯(lián)動(dòng)的機(jī)制等。”