前沿 | BAIR開(kāi)發(fā)現(xiàn)實(shí)環(huán)境的RL機(jī)器人,通過(guò)與人類的物理交互學(xué)習(xí)真實(shí)目標(biāo)
2018-02-14
可交互機(jī)器人通常將人類干預(yù)當(dāng)成干擾,在干預(yù)撤除后隨即恢復(fù)原來(lái)的軌跡,像彈簧一樣執(zhí)拗,無(wú)法根據(jù)人類偏好優(yōu)化動(dòng)作。伯克利近日開(kāi)發(fā)出可交互學(xué)習(xí)的機(jī)器人系統(tǒng),以類似強(qiáng)化學(xué)習(xí)的范式(目標(biāo)函數(shù)不確定),能根據(jù)人類干預(yù)對(duì)自身軌跡進(jìn)行修正,以最大化獎(jiǎng)勵(lì),從而可以實(shí)時(shí)學(xué)習(xí)人類偏好。
人類每天都在進(jìn)行彼此間的物理交互—從某人快要撒掉飲料時(shí)扶住他/她的手到將你的朋友推到正確的方向,身體上的物理互動(dòng)是一種用來(lái)傳達(dá)個(gè)人喜好和如何正確執(zhí)行一個(gè)任務(wù)的直觀方式。
那么,我們?yōu)槭裁床缓彤?dāng)下的機(jī)器人像人一樣進(jìn)行物理交互呢?人類和機(jī)器人之間進(jìn)行無(wú)縫的物理交互需要很多條件:輕量級(jí)的機(jī)器人設(shè)計(jì)、可靠的力學(xué)傳感器、安全和反應(yīng)式的控制方案、預(yù)測(cè)人類協(xié)作者意圖的能力,等!幸運(yùn)的是,機(jī)器人學(xué)在專門為人類開(kāi)發(fā)的個(gè)人機(jī)器人設(shè)計(jì)方面已經(jīng)取得了很多進(jìn)步。
然而,再推敲一下我們剛開(kāi)始就列舉的第一個(gè)例子,即你在朋友快要撒掉飲料的時(shí)候扶住了他/她的手。現(xiàn)在假定你那位即將撒掉飲料的朋友(而不是你)是一個(gè)機(jī)器人。因?yàn)樵谀壳白钕冗M(jìn)的機(jī)器人的規(guī)劃和控制算法中,通常會(huì)將人類的物理干預(yù)視為外部擾動(dòng),一旦你放開(kāi)機(jī)器人,它將恢復(fù)它那錯(cuò)誤的軌跡,繼續(xù)灑出飲料。這種差距的關(guān)鍵在于機(jī)器人是如何思考與人類之間的物理交互的:絕大多數(shù)機(jī)器人會(huì)在交互結(jié)束之后恢復(fù)其初始行為,而不是思考人類為什么根據(jù)需求對(duì)它進(jìn)行物理干預(yù)并重新規(guī)劃。
我們認(rèn)為機(jī)器人應(yīng)該將人類的物理干預(yù)視為和它應(yīng)該如何執(zhí)行任務(wù)相關(guān)的有用的信息。我們將機(jī)器人對(duì)物理干預(yù)的反應(yīng)形式化為一種目標(biāo)(獎(jiǎng)勵(lì))學(xué)習(xí)問(wèn)題,并且提出了一個(gè)解決方案,使得機(jī)器人在執(zhí)行一個(gè)任務(wù)的時(shí)候能夠根據(jù)在這些交互中得到的信息來(lái)改變它們的行為。
對(duì)物理交互的推理:未知的干擾與有意義的信息
物理人機(jī)交互(pHRI)領(lǐng)域研究的是共享工作空間里親密的物理交互中出現(xiàn)的設(shè)計(jì)、控制和規(guī)劃問(wèn)題。之前的 pHRI 研究已經(jīng)開(kāi)發(fā)出了應(yīng)對(duì)機(jī)器人在執(zhí)行任務(wù)時(shí)面對(duì)物理交互的應(yīng)對(duì)方法。由 Hogan(http://summerschool.stiff-project.org/fileadmin/pdf/Hog1985.pdf)等人提出的阻抗控制是常用的方法之一,阻抗控制可以讓機(jī)器人在有人存在的空間里朝著期望的軌跡移動(dòng)。使用這個(gè)控制方法時(shí),機(jī)器人就像一個(gè)彈簧一樣:它允許人推它,但是在人停止施力之后,它會(huì)移回到原來(lái)的期望位置。盡管這種策略非常快速,并且能夠讓機(jī)器人安全地適應(yīng)人類的力量,但是機(jī)器人并不會(huì)利用這種干預(yù)去更新它對(duì)任務(wù)的理解,機(jī)器人將繼續(xù)以與人類交互之前規(guī)劃好的方式執(zhí)行任務(wù)。
為什么會(huì)是這種情況呢?這可以歸結(jié)為機(jī)器人對(duì)任務(wù)知識(shí)以及它所感知到的力的理解。通常,任務(wù)的概念是以一種目標(biāo)函數(shù)的形式被賦予機(jī)器人的。這個(gè)目標(biāo)函數(shù)為任務(wù)的不同方面編碼獎(jiǎng)勵(lì),例如「到達(dá)位置 X」,或者「在遠(yuǎn)離人類的同時(shí)朝著桌子移動(dòng)」。機(jī)器人使用它的目標(biāo)函數(shù)來(lái)生成可以滿足任務(wù)所有方面的動(dòng)作:例如,機(jī)器人會(huì)朝著目標(biāo) X 移動(dòng),同時(shí)選擇靠近桌子和遠(yuǎn)離人類的路徑。如果機(jī)器人最初的目標(biāo)函數(shù)是正確的,那么任何外部干擾對(duì)它而言都是對(duì)它正確路徑的干擾。因此,為了安全起見(jiàn),機(jī)器人應(yīng)該允許物理交互來(lái)干預(yù)它,但是它最終會(huì)返回到計(jì)劃的最初路徑,因?yàn)樗虉?zhí)地認(rèn)為最初的規(guī)劃是正確的。
相比之下,我們認(rèn)為人類的干預(yù)往往是有目的的,并且是在機(jī)器人出錯(cuò)的時(shí)候才去干預(yù)它。雖然機(jī)器人的原始行為相對(duì)其預(yù)定義好的目標(biāo)函數(shù)可能是最優(yōu)的,但是需要人類干預(yù)的事實(shí)則意味著最初的目標(biāo)函數(shù)并不是特別正確。所以,物理的人類干預(yù)不再是擾動(dòng)了,而是對(duì)機(jī)器人應(yīng)該呈現(xiàn)的真實(shí)目標(biāo)函數(shù)的有用觀察?;谶@種考慮,我們從逆強(qiáng)化學(xué)習(xí)(IRL)(http://ai.stanford.edu/~ang/papers/icml00-irl.pdf)中獲得一些靈感,即機(jī)器人觀察到了一些行為(例如被推離了桌子),并且嘗試著去推理新的目標(biāo)函數(shù)(例如,「遠(yuǎn)離桌子」)。請(qǐng)注意,雖然很多 IRL 方法集中在讓機(jī)器人在下一次做得更好,而我們則關(guān)注于讓機(jī)器人正確地完成當(dāng)前的任務(wù)。
形式化對(duì) pHRI 的反應(yīng)
基于對(duì)物理人機(jī)交互的認(rèn)識(shí),我們可以用一個(gè)動(dòng)態(tài)系統(tǒng)來(lái)描述 pHRI,其中機(jī)器人不能確定正確的目標(biāo)函數(shù),人類的交互將給它提供信息。這種形式定義了一類廣泛的 pHRI 算法,包括現(xiàn)有的阻抗控制方法,使得我們能夠得到一種新穎的在線學(xué)習(xí)方法。
我們將會(huì)集中討論這種方法的兩個(gè)部分:(1)目標(biāo)函數(shù)的結(jié)構(gòu);(2)機(jī)器人通過(guò)給定的人類物理交互推理目標(biāo)函數(shù)的觀察模型。讓 x 代表機(jī)器人的狀態(tài)(例如位置和速度),uR 代表機(jī)器人的動(dòng)作(例如施加到關(guān)節(jié)的扭矩)。人類可以通過(guò)外部的力矩來(lái)與機(jī)器人產(chǎn)生物理交互,稱作 uH,機(jī)器人通過(guò)它的動(dòng)力運(yùn)動(dòng)到下一個(gè)狀態(tài)。
機(jī)器人的目標(biāo):在最少的人類交互下正確地完成任務(wù)
在 pHRI 中,我們希望機(jī)器人能夠?qū)W習(xí)人類,但同時(shí)我們也不想讓人類在持續(xù)的物理交互中負(fù)擔(dān)過(guò)重。所以,我們可以為機(jī)器人定下這么一個(gè)目標(biāo),既能完成任務(wù),也能最小化所需的交互數(shù)量,最終在這則兩者之間進(jìn)行權(quán)衡。
這里,?(x,uR,uH) 對(duì)任務(wù)相關(guān)的特征進(jìn)行編碼(例如,「到桌子的距離」、「到人類的距離」、「到目標(biāo)的距離」),θ決定每種特征的相對(duì)權(quán)重。這個(gè)函數(shù)中,θ封裝了真正的目標(biāo)——如果機(jī)器人準(zhǔn)確地知道如何給任務(wù)的各個(gè)方面進(jìn)行加權(quán),那么它就可以計(jì)算出如何以最佳的方式執(zhí)行任務(wù)。然而,機(jī)器人并不知道這個(gè)參數(shù)!機(jī)器人并不總會(huì)知道執(zhí)行任務(wù)的正確方式,更不用說(shuō)人類喜歡的方式了。
觀測(cè)模型:從人類的交互中推理正確的目標(biāo)函數(shù)
正如我們討論的,機(jī)器人應(yīng)該觀察人類的動(dòng)作來(lái)推理位置的任務(wù)目標(biāo)。為了把機(jī)器人測(cè)量的直接人力與目標(biāo)函數(shù)聯(lián)系起來(lái),機(jī)器人采用了觀測(cè)模型。在最大熵逆強(qiáng)化學(xué)習(xí)(IRL)(https://www.aaai.org/Papers/AAAI/2008/AAAI08-227.pdf)中的現(xiàn)有工作和人類行為認(rèn)知科學(xué)模型(http://web.mit.edu/clbaker/www/papers/cogsci2007.pdf)中的玻爾茲曼分布的基礎(chǔ)上,我們將人類的干預(yù)建模為:機(jī)器人在處于狀態(tài) x 并采取 uR+uH 的行動(dòng)時(shí),能夠?qū)C(jī)器人期望的獎(jiǎng)勵(lì)近似最大化的矯正。這個(gè)期望的獎(jiǎng)勵(lì)包含即時(shí)獎(jiǎng)勵(lì)和未來(lái)獎(jiǎng)勵(lì),并且由 Q 值描述。
直覺(jué)地看,這個(gè)模型的解釋是,人類更可能選擇這樣一種物理交互,它能夠與機(jī)器人的動(dòng)作結(jié)合起來(lái),以形成一個(gè)期望的行為(具有高獎(jiǎng)勵(lì)值的行為)。
從人類的物理交互中進(jìn)行實(shí)時(shí)學(xué)習(xí)
就像教一個(gè)人類一樣,我們希望機(jī)器人能夠在我們與它交互的時(shí)候持續(xù)地學(xué)習(xí)。然而,我們提出的學(xué)習(xí)框架需要機(jī)器人求解一個(gè)部分可觀測(cè)馬爾科夫決策過(guò)程(POMDP,partial observable markov decision process);不幸的是,我們知道,精確地求解 POMDP 需要昂貴的計(jì)算代價(jià),而且在最壞的情況下是無(wú)法解決的。然而,我們可以從這種形式中推導(dǎo)它的近似值,這些近似值可以使機(jī)器人在與人類交互的同時(shí)進(jìn)行學(xué)習(xí)和行動(dòng)。
為了實(shí)現(xiàn)這種任務(wù)內(nèi)學(xué)習(xí),我們做了三個(gè)近似,歸納如下:
1)把求解最優(yōu)控制策略和估計(jì)真實(shí)目標(biāo)函數(shù)區(qū)分開(kāi)來(lái)。這意味著機(jī)器人要在每一個(gè)時(shí)間步更新它對(duì)θ的可能值的置信度,然后重新規(guī)劃一個(gè)滿足新分布的最優(yōu)控制策略。
2)將控制和規(guī)劃區(qū)分開(kāi)來(lái)。計(jì)算一個(gè)最優(yōu)控制策略意味著要在連續(xù)狀態(tài)、動(dòng)作和置信空間中的每個(gè)狀態(tài)計(jì)算出一個(gè)要采取的最佳行動(dòng)。盡管在每一次交互之后實(shí)時(shí)重新計(jì)算出一個(gè)完全的最優(yōu)策略是很難的,但是我們可以在當(dāng)前的狀態(tài)實(shí)時(shí)重新計(jì)算出一個(gè)最優(yōu)軌跡。這就是說(shuō),機(jī)器人首先會(huì)規(guī)劃出一個(gè)最符合當(dāng)前估計(jì)的軌跡,然后用一個(gè)阻抗控制器追蹤這個(gè)軌跡。我們前面描述過(guò)的阻抗控制提供了需要的良好屬性,在交互期間,人們可以物理地修改機(jī)器人的狀態(tài),同時(shí)還能保證安全。
回顧一下我們的估計(jì)步驟,我們將對(duì)軌跡空間進(jìn)行類似的變換,并且修改我們的觀測(cè)模型來(lái)反映這一點(diǎn):
現(xiàn)在我們的觀測(cè)模型僅僅依賴于在一個(gè)軌跡上的累積獎(jiǎng)勵(lì) R,R 可以通過(guò)對(duì)所有步驟中的獎(jiǎng)勵(lì)進(jìn)行求和計(jì)算得到。在這個(gè)近似中,在推理真實(shí)目標(biāo)函數(shù)的時(shí)候,在給定當(dāng)前執(zhí)行軌跡 ξR 以后,機(jī)器人僅須考慮與人類偏好軌跡 ξH 的似然度。
但是,人類的偏好軌跡 ξH 又是什么呢?機(jī)器人僅僅會(huì)直接測(cè)量人類施加的力 uH。一種用來(lái)推理人類偏好軌跡的方式是在機(jī)器人的當(dāng)前軌跡上傳播人類的力。圖 1 建立了基于 Losey 和 O'Malley 之前的工作的軌跡形變,開(kāi)始于機(jī)器人的原始軌跡,然后施加外力,然后施加形變以產(chǎn)生 ξH。
圖 1. 為了推理給定目前規(guī)劃好的軌跡中的人類偏好軌跡,機(jī)器人首先測(cè)量了人類的交互力 uH,然后平滑地使軌跡上與交互點(diǎn)接近的點(diǎn)發(fā)生形變,從而得到人類偏好的軌跡。
3)使用θ的最大后驗(yàn)(MAP)估計(jì)進(jìn)行規(guī)劃。最后,因?yàn)棣仁且粋€(gè)連續(xù)變量,并且可能會(huì)具有較高的維度,加之觀測(cè)模型是非高斯的,所以我們會(huì)僅使用 MAP 估計(jì)進(jìn)行規(guī)劃,而不是對(duì)θ的完全置信。我們發(fā)現(xiàn),在高斯先驗(yàn)條件下,機(jī)器人當(dāng)前軌跡的二階泰勒級(jí)數(shù)展開(kāi)下的 MAP 估計(jì)相當(dāng)于執(zhí)行在線梯度下降:
在每一個(gè)時(shí)間點(diǎn),機(jī)器人會(huì)根據(jù)其當(dāng)前最優(yōu)軌跡和人類的偏好軌跡之間的累積特征差 來(lái)更新它對(duì)θ的估計(jì)。在示例學(xué)習(xí)的文獻(xiàn)中,這個(gè)更新規(guī)則類似于在線最大間距規(guī)劃(https://www.ri.cmu.edu/pub_files/pub4/ratliff_nathan_2006_1/ratliff_nathan_2006_1.pdf);它也類似于合作學(xué)習(xí)(https://arxiv.org/pdf/1601.00741.pdf),在合作學(xué)習(xí)中,人類會(huì)修正當(dāng)前任務(wù)的軌跡點(diǎn)來(lái)為未來(lái)的任務(wù)學(xué)習(xí)一個(gè)獎(jiǎng)勵(lì)函數(shù)。
最終,將這三步結(jié)合起來(lái)就得到了原始 POMDP 的一個(gè)優(yōu)雅的近似解決方案。在每一個(gè)時(shí)間步驟中,機(jī)器人規(guī)劃一個(gè)軌跡 ξR,然后開(kāi)始移動(dòng)。人類可以進(jìn)行物理交互,使得機(jī)器人能夠感知到人類施加的力量 uH。然后,機(jī)器人利用人的力量使其原始軌跡發(fā)生形變,并生成人類期望的軌跡 ξH。然后機(jī)器人會(huì)推理其原始軌跡和人類期望的軌跡在任務(wù)的哪些方面存在不同,并在這種差別的方向上更新 θ 的值。然后,機(jī)器人使用新的特征權(quán)重重新規(guī)劃一個(gè)更加符合人類偏好的軌跡。
您可以閱讀我們?cè)?2017 年機(jī)器人學(xué)習(xí)會(huì)議上的論文(http://proceedings.mlr.press/v78/bajcsy17a/bajcsy17a.pdf)來(lái)了解我們的形式化和近似的全面描述。
在現(xiàn)實(shí)世界中向人類學(xué)習(xí)
為了評(píng)價(jià)任務(wù)內(nèi)學(xué)習(xí)在現(xiàn)實(shí)個(gè)人機(jī)器人上的好處,我們招募了 10 名參與者進(jìn)行用戶研究。每位參與者都與運(yùn)行我們提出的在線學(xué)習(xí)方法的機(jī)器人進(jìn)行交互,同時(shí)將沒(méi)有從物理交互中學(xué)習(xí),只是簡(jiǎn)單運(yùn)行阻抗控制方法的機(jī)器人作為對(duì)比基準(zhǔn)。
圖 2 展示了三個(gè)實(shí)驗(yàn)性的居家操作任務(wù),在每一個(gè)任務(wù)中,機(jī)器人開(kāi)始時(shí)都被初始化為一個(gè)不正確的目標(biāo)函數(shù),參與者必須對(duì)其進(jìn)行校正。例如,機(jī)器人會(huì)把杯子從架子上移動(dòng)到桌子上,但它不會(huì)考慮杯子傾斜(它不會(huì)注意到杯子里是否有液體)。
圖 2. 初始目標(biāo)函數(shù)被標(biāo)記為黑色的線,真實(shí)目標(biāo)函數(shù)的期望軌跡標(biāo)記為藍(lán)色線條。參與者需要校正機(jī)器人,教它將杯子保持直立(左邊),使其朝著桌子移動(dòng)(中間),并避免經(jīng)過(guò)筆記本電腦(右邊)。
我們測(cè)量了機(jī)器人相對(duì)真實(shí)目標(biāo)的性能、參與者付出的努力、交互時(shí)間以及 7 點(diǎn) Likert 量表調(diào)查的響應(yīng)。
在任務(wù) 1 中,看到杯子傾斜時(shí),要教機(jī)器人使杯子保持直立,參與者必須進(jìn)行物理干預(yù)(圖左的阻抗控制不會(huì)將杯子保持修正后的狀態(tài),圖右的在線學(xué)習(xí)則能實(shí)時(shí)修正杯子變得直立)。
任務(wù) 2 讓參與者教機(jī)器人靠近桌子(阻抗控制的機(jī)器手確實(shí)像彈簧,非常執(zhí)拗)
對(duì)于任務(wù) 3,機(jī)器人的原始軌跡會(huì)經(jīng)過(guò)筆記本電腦上方。為了教機(jī)器人避免從筆記本電腦上方經(jīng)過(guò),參與者必須進(jìn)行物理干預(yù)。
我們的用戶研究結(jié)果表明,從物理交互中學(xué)習(xí)能夠以較少的人力獲得更好的機(jī)器人任務(wù)性能。當(dāng)機(jī)器人正在執(zhí)行任務(wù)期間積極地從交互中學(xué)習(xí)的時(shí)候,參與者能夠使機(jī)器人以更少的努力和交互時(shí)間更快地執(zhí)行正確的行為。此外,參與者相信機(jī)器人能夠更好地理解人類的偏好,能夠減少他們互動(dòng)的努力,參與者相信,機(jī)器人是一個(gè)更具協(xié)作性的合作伙伴。
圖 3 . 對(duì)于每一個(gè)目標(biāo)測(cè)量(包括任務(wù)代價(jià)、人類努力以及交互時(shí)間),從交互中學(xué)習(xí)顯著地優(yōu)于不進(jìn)行學(xué)習(xí)的情況。
最終,我們認(rèn)為機(jī)器人不應(yīng)該將人類的交互作為一種干擾,而應(yīng)該將其作為提供信息的動(dòng)作。我們證明,具有這種推理能力的機(jī)器人能夠更新他們對(duì)正在執(zhí)行的任務(wù)的理解并正確地完成任務(wù),而不是依賴于人們引導(dǎo)他們直至任務(wù)的完成。
這項(xiàng)工作只是探索從 pHRI 中學(xué)習(xí)機(jī)器人目標(biāo)的一個(gè)簡(jiǎn)單嘗試。很多未解決的問(wèn)題仍然存在,包括開(kāi)發(fā)能處理動(dòng)態(tài)方面的解決方案(例如關(guān)于移動(dòng)時(shí)間的偏好),以及如何/何時(shí)將所學(xué)的目標(biāo)函數(shù)推廣到新任務(wù)中。此外,機(jī)器人的獎(jiǎng)勵(lì)函數(shù)經(jīng)常會(huì)有一些任務(wù)相關(guān)的特征,人類的交互也許僅僅給出了關(guān)于相關(guān)權(quán)重的一個(gè)特定子集的信息。我們?cè)?HRI 2018 中的最新工作研究了機(jī)器人如何通過(guò)一次只學(xué)習(xí)一個(gè)特征權(quán)重來(lái)消除對(duì)人們?cè)噲D糾正的錯(cuò)誤的歧義??傊?,我們不僅需要能夠從與人類的物理交互中進(jìn)行學(xué)習(xí)的算法,而且這些方法還必須考慮到在嘗試動(dòng)覺(jué)地(肌肉運(yùn)動(dòng)感覺(jué))教一個(gè)復(fù)雜的(可能不熟悉的)機(jī)器人系統(tǒng)時(shí)人類需要面對(duì)的固有難度。