可交互機(jī)器人通常將人類干預(yù)當(dāng)成干擾,在干預(yù)撤除后隨即恢復(fù)原來的軌跡,像彈簧一樣執(zhí)拗,無法根據(jù)人類偏好優(yōu)化動作。伯克利近日開發(fā)出可交互學(xué)習(xí)的機(jī)器人系統(tǒng),以類似強化學(xué)習(xí)的范式(目標(biāo)函數(shù)不確定),能根據(jù)人類干預(yù)對自身軌跡進(jìn)行修正,以最大化獎勵,從而可以實時學(xué)習(xí)人類偏好。
人類每天都在進(jìn)行彼此間的物理交互—從某人快要撒掉飲料時扶住他/她的手到將你的朋友推到正確的方向,身體上的物理互動是一種用來傳達(dá)個人喜好和如何正確執(zhí)行一個任務(wù)的直觀方式。
那么,我們?yōu)槭裁床缓彤?dāng)下的機(jī)器人像人一樣進(jìn)行物理交互呢?人類和機(jī)器人之間進(jìn)行無縫的物理交互需要很多條件:輕量級的機(jī)器人設(shè)計、可靠的力學(xué)傳感器、安全和反應(yīng)式的控制方案、預(yù)測人類協(xié)作者意圖的能力,等!幸運的是,機(jī)器人學(xué)在專門為人類開發(fā)的個人機(jī)器人設(shè)計方面已經(jīng)取得了很多進(jìn)步。
然而,再推敲一下我們剛開始就列舉的第一個例子,即你在朋友快要撒掉飲料的時候扶住了他/她的手?,F(xiàn)在假定你那位即將撒掉飲料的朋友(而不是你)是一個機(jī)器人。因為在目前最先進(jìn)的機(jī)器人的規(guī)劃和控制算法中,通常會將人類的物理干預(yù)視為外部擾動,一旦你放開機(jī)器人,它將恢復(fù)它那錯誤的軌跡,繼續(xù)灑出飲料。這種差距的關(guān)鍵在于機(jī)器人是如何思考與人類之間的物理交互的:絕大多數(shù)機(jī)器人會在交互結(jié)束之后恢復(fù)其初始行為,而不是思考人類為什么根據(jù)需求對它進(jìn)行物理干預(yù)并重新規(guī)劃。
我們認(rèn)為機(jī)器人應(yīng)該將人類的物理干預(yù)視為和它應(yīng)該如何執(zhí)行任務(wù)相關(guān)的有用的信息。我們將機(jī)器人對物理干預(yù)的反應(yīng)形式化為一種目標(biāo)(獎勵)學(xué)習(xí)問題,并且提出了一個解決方案,使得機(jī)器人在執(zhí)行一個任務(wù)的時候能夠根據(jù)在這些交互中得到的信息來改變它們的行為。
對物理交互的推理:未知的干擾與有意義的信息
物理人機(jī)交互(pHRI)領(lǐng)域研究的是共享工作空間里親密的物理交互中出現(xiàn)的設(shè)計、控制和規(guī)劃問題。之前的 pHRI 研究已經(jīng)開發(fā)出了應(yīng)對機(jī)器人在執(zhí)行任務(wù)時面對物理交互的應(yīng)對方法。由 Hogan(http://summerschool.stiff-project.org/fileadmin/pdf/Hog1985.pdf)等人提出的阻抗控制是常用的方法之一,阻抗控制可以讓機(jī)器人在有人存在的空間里朝著期望的軌跡移動。使用這個控制方法時,機(jī)器人就像一個彈簧一樣:它允許人推它,但是在人停止施力之后,它會移回到原來的期望位置。盡管這種策略非常快速,并且能夠讓機(jī)器人安全地適應(yīng)人類的力量,但是機(jī)器人并不會利用這種干預(yù)去更新它對任務(wù)的理解,機(jī)器人將繼續(xù)以與人類交互之前規(guī)劃好的方式執(zhí)行任務(wù)。
為什么會是這種情況呢?這可以歸結(jié)為機(jī)器人對任務(wù)知識以及它所感知到的力的理解。通常,任務(wù)的概念是以一種目標(biāo)函數(shù)的形式被賦予機(jī)器人的。這個目標(biāo)函數(shù)為任務(wù)的不同方面編碼獎勵,例如「到達(dá)位置 X」,或者「在遠(yuǎn)離人類的同時朝著桌子移動」。機(jī)器人使用它的目標(biāo)函數(shù)來生成可以滿足任務(wù)所有方面的動作:例如,機(jī)器人會朝著目標(biāo) X 移動,同時選擇靠近桌子和遠(yuǎn)離人類的路徑。如果機(jī)器人最初的目標(biāo)函數(shù)是正確的,那么任何外部干擾對它而言都是對它正確路徑的干擾。因此,為了安全起見,機(jī)器人應(yīng)該允許物理交互來干預(yù)它,但是它最終會返回到計劃的最初路徑,因為它固執(zhí)地認(rèn)為最初的規(guī)劃是正確的。
相比之下,我們認(rèn)為人類的干預(yù)往往是有目的的,并且是在機(jī)器人出錯的時候才去干預(yù)它。雖然機(jī)器人的原始行為相對其預(yù)定義好的目標(biāo)函數(shù)可能是最優(yōu)的,但是需要人類干預(yù)的事實則意味著最初的目標(biāo)函數(shù)并不是特別正確。所以,物理的人類干預(yù)不再是擾動了,而是對機(jī)器人應(yīng)該呈現(xiàn)的真實目標(biāo)函數(shù)的有用觀察?;谶@種考慮,我們從逆強化學(xué)習(xí)(IRL)(http://ai.stanford.edu/~ang/papers/icml00-irl.pdf)中獲得一些靈感,即機(jī)器人觀察到了一些行為(例如被推離了桌子),并且嘗試著去推理新的目標(biāo)函數(shù)(例如,「遠(yuǎn)離桌子」)。請注意,雖然很多 IRL 方法集中在讓機(jī)器人在下一次做得更好,而我們則關(guān)注于讓機(jī)器人正確地完成當(dāng)前的任務(wù)。
形式化對 pHRI 的反應(yīng)
基于對物理人機(jī)交互的認(rèn)識,我們可以用一個動態(tài)系統(tǒng)來描述 pHRI,其中機(jī)器人不能確定正確的目標(biāo)函數(shù),人類的交互將給它提供信息。這種形式定義了一類廣泛的 pHRI 算法,包括現(xiàn)有的阻抗控制方法,使得我們能夠得到一種新穎的在線學(xué)習(xí)方法。
我們將會集中討論這種方法的兩個部分:(1)目標(biāo)函數(shù)的結(jié)構(gòu);(2)機(jī)器人通過給定的人類物理交互推理目標(biāo)函數(shù)的觀察模型。讓 x 代表機(jī)器人的狀態(tài)(例如位置和速度),uR 代表機(jī)器人的動作(例如施加到關(guān)節(jié)的扭矩)。人類可以通過外部的力矩來與機(jī)器人產(chǎn)生物理交互,稱作 uH,機(jī)器人通過它的動力運動到下一個狀態(tài)。
機(jī)器人的目標(biāo):在最少的人類交互下正確地完成任務(wù)
在 pHRI 中,我們希望機(jī)器人能夠?qū)W習(xí)人類,但同時我們也不想讓人類在持續(xù)的物理交互中負(fù)擔(dān)過重。所以,我們可以為機(jī)器人定下這么一個目標(biāo),既能完成任務(wù),也能最小化所需的交互數(shù)量,最終在這則兩者之間進(jìn)行權(quán)衡。
這里,?(x,uR,uH) 對任務(wù)相關(guān)的特征進(jìn)行編碼(例如,「到桌子的距離」、「到人類的距離」、「到目標(biāo)的距離」),θ決定每種特征的相對權(quán)重。這個函數(shù)中,θ封裝了真正的目標(biāo)——如果機(jī)器人準(zhǔn)確地知道如何給任務(wù)的各個方面進(jìn)行加權(quán),那么它就可以計算出如何以最佳的方式執(zhí)行任務(wù)。然而,機(jī)器人并不知道這個參數(shù)!機(jī)器人并不總會知道執(zhí)行任務(wù)的正確方式,更不用說人類喜歡的方式了。
觀測模型:從人類的交互中推理正確的目標(biāo)函數(shù)
正如我們討論的,機(jī)器人應(yīng)該觀察人類的動作來推理位置的任務(wù)目標(biāo)。為了把機(jī)器人測量的直接人力與目標(biāo)函數(shù)聯(lián)系起來,機(jī)器人采用了觀測模型。在最大熵逆強化學(xué)習(xí)(IRL)(https://www.aaai.org/Papers/AAAI/2008/AAAI08-227.pdf)中的現(xiàn)有工作和人類行為認(rèn)知科學(xué)模型(http://web.mit.edu/clbaker/www/papers/cogsci2007.pdf)中的玻爾茲曼分布的基礎(chǔ)上,我們將人類的干預(yù)建模為:機(jī)器人在處于狀態(tài) x 并采取 uR+uH 的行動時,能夠?qū)C(jī)器人期望的獎勵近似最大化的矯正。這個期望的獎勵包含即時獎勵和未來獎勵,并且由 Q 值描述。
直覺地看,這個模型的解釋是,人類更可能選擇這樣一種物理交互,它能夠與機(jī)器人的動作結(jié)合起來,以形成一個期望的行為(具有高獎勵值的行為)。
從人類的物理交互中進(jìn)行實時學(xué)習(xí)
就像教一個人類一樣,我們希望機(jī)器人能夠在我們與它交互的時候持續(xù)地學(xué)習(xí)。然而,我們提出的學(xué)習(xí)框架需要機(jī)器人求解一個部分可觀測馬爾科夫決策過程(POMDP,partial observable markov decision process);不幸的是,我們知道,精確地求解 POMDP 需要昂貴的計算代價,而且在最壞的情況下是無法解決的。然而,我們可以從這種形式中推導(dǎo)它的近似值,這些近似值可以使機(jī)器人在與人類交互的同時進(jìn)行學(xué)習(xí)和行動。
為了實現(xiàn)這種任務(wù)內(nèi)學(xué)習(xí),我們做了三個近似,歸納如下:
1)把求解最優(yōu)控制策略和估計真實目標(biāo)函數(shù)區(qū)分開來。這意味著機(jī)器人要在每一個時間步更新它對θ的可能值的置信度,然后重新規(guī)劃一個滿足新分布的最優(yōu)控制策略。
2)將控制和規(guī)劃區(qū)分開來。計算一個最優(yōu)控制策略意味著要在連續(xù)狀態(tài)、動作和置信空間中的每個狀態(tài)計算出一個要采取的最佳行動。盡管在每一次交互之后實時重新計算出一個完全的最優(yōu)策略是很難的,但是我們可以在當(dāng)前的狀態(tài)實時重新計算出一個最優(yōu)軌跡。這就是說,機(jī)器人首先會規(guī)劃出一個最符合當(dāng)前估計的軌跡,然后用一個阻抗控制器追蹤這個軌跡。我們前面描述過的阻抗控制提供了需要的良好屬性,在交互期間,人們可以物理地修改機(jī)器人的狀態(tài),同時還能保證安全。
回顧一下我們的估計步驟,我們將對軌跡空間進(jìn)行類似的變換,并且修改我們的觀測模型來反映這一點:
現(xiàn)在我們的觀測模型僅僅依賴于在一個軌跡上的累積獎勵 R,R 可以通過對所有步驟中的獎勵進(jìn)行求和計算得到。在這個近似中,在推理真實目標(biāo)函數(shù)的時候,在給定當(dāng)前執(zhí)行軌跡 ξR 以后,機(jī)器人僅須考慮與人類偏好軌跡 ξH 的似然度。
但是,人類的偏好軌跡 ξH 又是什么呢?機(jī)器人僅僅會直接測量人類施加的力 uH。一種用來推理人類偏好軌跡的方式是在機(jī)器人的當(dāng)前軌跡上傳播人類的力。圖 1 建立了基于 Losey 和 O'Malley 之前的工作的軌跡形變,開始于機(jī)器人的原始軌跡,然后施加外力,然后施加形變以產(chǎn)生 ξH。
圖 1. 為了推理給定目前規(guī)劃好的軌跡中的人類偏好軌跡,機(jī)器人首先測量了人類的交互力 uH,然后平滑地使軌跡上與交互點接近的點發(fā)生形變,從而得到人類偏好的軌跡。
3)使用θ的最大后驗(MAP)估計進(jìn)行規(guī)劃。最后,因為θ是一個連續(xù)變量,并且可能會具有較高的維度,加之觀測模型是非高斯的,所以我們會僅使用 MAP 估計進(jìn)行規(guī)劃,而不是對θ的完全置信。我們發(fā)現(xiàn),在高斯先驗條件下,機(jī)器人當(dāng)前軌跡的二階泰勒級數(shù)展開下的 MAP 估計相當(dāng)于執(zhí)行在線梯度下降:
在每一個時間點,機(jī)器人會根據(jù)其當(dāng)前最優(yōu)軌跡和人類的偏好軌跡之間的累積特征差 來更新它對θ的估計。在示例學(xué)習(xí)的文獻(xiàn)中,這個更新規(guī)則類似于在線最大間距規(guī)劃(https://www.ri.cmu.edu/pub_files/pub4/ratliff_nathan_2006_1/ratliff_nathan_2006_1.pdf);它也類似于合作學(xué)習(xí)(https://arxiv.org/pdf/1601.00741.pdf),在合作學(xué)習(xí)中,人類會修正當(dāng)前任務(wù)的軌跡點來為未來的任務(wù)學(xué)習(xí)一個獎勵函數(shù)。
最終,將這三步結(jié)合起來就得到了原始 POMDP 的一個優(yōu)雅的近似解決方案。在每一個時間步驟中,機(jī)器人規(guī)劃一個軌跡 ξR,然后開始移動。人類可以進(jìn)行物理交互,使得機(jī)器人能夠感知到人類施加的力量 uH。然后,機(jī)器人利用人的力量使其原始軌跡發(fā)生形變,并生成人類期望的軌跡 ξH。然后機(jī)器人會推理其原始軌跡和人類期望的軌跡在任務(wù)的哪些方面存在不同,并在這種差別的方向上更新 θ 的值。然后,機(jī)器人使用新的特征權(quán)重重新規(guī)劃一個更加符合人類偏好的軌跡。
您可以閱讀我們在 2017 年機(jī)器人學(xué)習(xí)會議上的論文(http://proceedings.mlr.press/v78/bajcsy17a/bajcsy17a.pdf)來了解我們的形式化和近似的全面描述。
在現(xiàn)實世界中向人類學(xué)習(xí)
為了評價任務(wù)內(nèi)學(xué)習(xí)在現(xiàn)實個人機(jī)器人上的好處,我們招募了 10 名參與者進(jìn)行用戶研究。每位參與者都與運行我們提出的在線學(xué)習(xí)方法的機(jī)器人進(jìn)行交互,同時將沒有從物理交互中學(xué)習(xí),只是簡單運行阻抗控制方法的機(jī)器人作為對比基準(zhǔn)。
圖 2 展示了三個實驗性的居家操作任務(wù),在每一個任務(wù)中,機(jī)器人開始時都被初始化為一個不正確的目標(biāo)函數(shù),參與者必須對其進(jìn)行校正。例如,機(jī)器人會把杯子從架子上移動到桌子上,但它不會考慮杯子傾斜(它不會注意到杯子里是否有液體)。
圖 2. 初始目標(biāo)函數(shù)被標(biāo)記為黑色的線,真實目標(biāo)函數(shù)的期望軌跡標(biāo)記為藍(lán)色線條。參與者需要校正機(jī)器人,教它將杯子保持直立(左邊),使其朝著桌子移動(中間),并避免經(jīng)過筆記本電腦(右邊)。
我們測量了機(jī)器人相對真實目標(biāo)的性能、參與者付出的努力、交互時間以及 7 點 Likert 量表調(diào)查的響應(yīng)。
在任務(wù) 1 中,看到杯子傾斜時,要教機(jī)器人使杯子保持直立,參與者必須進(jìn)行物理干預(yù)(圖左的阻抗控制不會將杯子保持修正后的狀態(tài),圖右的在線學(xué)習(xí)則能實時修正杯子變得直立)。
任務(wù) 2 讓參與者教機(jī)器人靠近桌子(阻抗控制的機(jī)器手確實像彈簧,非常執(zhí)拗)
對于任務(wù) 3,機(jī)器人的原始軌跡會經(jīng)過筆記本電腦上方。為了教機(jī)器人避免從筆記本電腦上方經(jīng)過,參與者必須進(jìn)行物理干預(yù)。
我們的用戶研究結(jié)果表明,從物理交互中學(xué)習(xí)能夠以較少的人力獲得更好的機(jī)器人任務(wù)性能。當(dāng)機(jī)器人正在執(zhí)行任務(wù)期間積極地從交互中學(xué)習(xí)的時候,參與者能夠使機(jī)器人以更少的努力和交互時間更快地執(zhí)行正確的行為。此外,參與者相信機(jī)器人能夠更好地理解人類的偏好,能夠減少他們互動的努力,參與者相信,機(jī)器人是一個更具協(xié)作性的合作伙伴。
圖 3 . 對于每一個目標(biāo)測量(包括任務(wù)代價、人類努力以及交互時間),從交互中學(xué)習(xí)顯著地優(yōu)于不進(jìn)行學(xué)習(xí)的情況。
最終,我們認(rèn)為機(jī)器人不應(yīng)該將人類的交互作為一種干擾,而應(yīng)該將其作為提供信息的動作。我們證明,具有這種推理能力的機(jī)器人能夠更新他們對正在執(zhí)行的任務(wù)的理解并正確地完成任務(wù),而不是依賴于人們引導(dǎo)他們直至任務(wù)的完成。
這項工作只是探索從 pHRI 中學(xué)習(xí)機(jī)器人目標(biāo)的一個簡單嘗試。很多未解決的問題仍然存在,包括開發(fā)能處理動態(tài)方面的解決方案(例如關(guān)于移動時間的偏好),以及如何/何時將所學(xué)的目標(biāo)函數(shù)推廣到新任務(wù)中。此外,機(jī)器人的獎勵函數(shù)經(jīng)常會有一些任務(wù)相關(guān)的特征,人類的交互也許僅僅給出了關(guān)于相關(guān)權(quán)重的一個特定子集的信息。我們在 HRI 2018 中的最新工作研究了機(jī)器人如何通過一次只學(xué)習(xí)一個特征權(quán)重來消除對人們試圖糾正的錯誤的歧義??傊?,我們不僅需要能夠從與人類的物理交互中進(jìn)行學(xué)習(xí)的算法,而且這些方法還必須考慮到在嘗試動覺地(肌肉運動感覺)教一個復(fù)雜的(可能不熟悉的)機(jī)器人系統(tǒng)時人類需要面對的固有難度。