【導(dǎo)語(yǔ)】
在工業(yè)人機(jī)協(xié)同裝配場(chǎng)景中,遮擋嚴(yán)重影響人體姿態(tài)估計(jì)的準(zhǔn)確性。浙江大學(xué)機(jī)械工程學(xué)院研究團(tuán)隊(duì)在中國(guó)科學(xué)院一區(qū)期刊 Robotics and Computer-Integrated Manufacturing 發(fā)表研究,提出一種面向遮擋人機(jī)協(xié)作場(chǎng)景的視覺(jué)-慣性融合人體姿態(tài)估計(jì)方法。研究中,NOKOV 度量光學(xué)動(dòng)作捕捉系統(tǒng)提供高精度人體姿態(tài)真值數(shù)據(jù),用于驗(yàn)證方法在真實(shí)裝配環(huán)境下的有效性與魯棒性。
一、人機(jī)協(xié)同裝配中的核心挑戰(zhàn):遮擋下的人體姿態(tài)估計(jì)
在人機(jī)協(xié)作(HRC)裝配過(guò)程中,機(jī)器人與操作人員近距離協(xié)同作業(yè),人體常被設(shè)備、工裝或機(jī)械臂部分遮擋,導(dǎo)致傳統(tǒng)基于視覺(jué)的人體姿態(tài)估計(jì)(HPE)方法精度下降。
針對(duì)遮擋人機(jī)協(xié)同裝配場(chǎng)景中的人體姿態(tài)估計(jì)問(wèn)題,浙江大學(xué)研究團(tuán)隊(duì)以工業(yè)制造真實(shí)需求為背景,探索更具魯棒性與可部署性的解決方案。
二、視覺(jué)-慣性融合的人體姿態(tài)估計(jì)方法設(shè)計(jì)
1.視覺(jué)-IMU 融合的人體姿態(tài)估計(jì)框架
論文提出一種基于視覺(jué)-慣性融合的人體姿態(tài)估計(jì)方法,以單個(gè) RGB 相機(jī)和稀疏 IMUs 作為輸入,在保證估計(jì)精度的同時(shí)兼顧操作人員的舒適性。

人機(jī)協(xié)作框架結(jié)構(gòu)
該方法通過(guò)多模態(tài)數(shù)據(jù)互補(bǔ),有效緩解視覺(jué)遮擋對(duì)人體關(guān)鍵點(diǎn)識(shí)別帶來(lái)的影響。
2.跨模態(tài)變換器融合塊設(shè)計(jì)
研究進(jìn)一步設(shè)計(jì)了一種基于特定部位的跨模態(tài)變換器融合模塊,用于整合不同模態(tài)下的人體空間特征,增強(qiáng)視覺(jué)與慣性信息之間的協(xié)同表達(dá)能力。
三、實(shí)驗(yàn)驗(yàn)證:公共數(shù)據(jù)集與真實(shí)裝配場(chǎng)景表現(xiàn)
遮擋裝配場(chǎng)景下的實(shí)驗(yàn)驗(yàn)證結(jié)果

人機(jī)協(xié)同:工業(yè) HRC 裝配箱任務(wù)流程圖
研究在兩個(gè)公共數(shù)據(jù)集、一個(gè)合成遮擋數(shù)據(jù)集,以及自建的人機(jī)協(xié)同裝配 HPE 數(shù)據(jù)集上進(jìn)行了系統(tǒng)實(shí)驗(yàn)。

展示了數(shù)據(jù)集中的六種收集動(dòng)作(a-f)及遮擋情況(a、c、f)

與不同 HPE 方法在自定義數(shù)據(jù)集上的定性比較。(黑色虛線:真實(shí)姿態(tài);紅色實(shí)線:估算姿態(tài))。
在自定義數(shù)據(jù)集中,NOKOV 度量動(dòng)作捕捉系統(tǒng)用于采集包含視頻、IMU 數(shù)據(jù)與 3D 人體姿態(tài)真值的完整實(shí)驗(yàn)數(shù)據(jù),結(jié)果表明該方法在遮擋環(huán)境下展現(xiàn)出更高的估計(jì)精度與魯棒性。
四、NOKOV度量動(dòng)作捕捉在姿態(tài)估計(jì)實(shí)驗(yàn)中的關(guān)鍵作用
基于光學(xué)動(dòng)作捕捉的高精度姿態(tài)真值獲取

人機(jī)協(xié)作實(shí)驗(yàn)數(shù)據(jù)采集系統(tǒng)設(shè)置,NOKOV度量光學(xué)動(dòng)作捕捉系統(tǒng)
在實(shí)驗(yàn)驗(yàn)證階段,研究團(tuán)隊(duì)使用 NOKOV 度量光學(xué)動(dòng)作捕捉系統(tǒng) 獲取高精度人體三維姿態(tài)真值數(shù)據(jù),用于評(píng)估所提方法在不同遮擋條件下的人體姿態(tài)估計(jì)精度。
NOKOV度量動(dòng)作捕捉系統(tǒng)在以下方面發(fā)揮關(guān)鍵作用:
提供亞毫米級(jí)精度的人體姿態(tài)真值
支撐多模態(tài)人體姿態(tài)估計(jì)方法的定量評(píng)估
驗(yàn)證視覺(jué)-慣性融合方法在真實(shí)裝配場(chǎng)景中的可靠性
五、人機(jī)協(xié)同場(chǎng)景中,遮擋環(huán)境下人體姿態(tài)估計(jì)方法FAQ
Q1:遮擋環(huán)境下如何實(shí)現(xiàn)高精度人體姿態(tài)估計(jì)?
A1:在遮擋嚴(yán)重的人機(jī)協(xié)同裝配場(chǎng)景中,通過(guò)融合視覺(jué)信息與慣性傳感器數(shù)據(jù)進(jìn)行人體姿態(tài)估計(jì),并結(jié)合光學(xué)動(dòng)作捕捉系統(tǒng)提供的高精度姿態(tài)真值進(jìn)行驗(yàn)證,可顯著提升估計(jì)結(jié)果的魯棒性與準(zhǔn)確性。
Q2:光學(xué)動(dòng)作捕捉在人體姿態(tài)估計(jì)研究中起什么作用?
A2:光學(xué)動(dòng)作捕捉系統(tǒng)如 NOKOV度量動(dòng)作捕捉系統(tǒng)可提供高精度三維姿態(tài)真值,作為驗(yàn)證新型人體姿態(tài)估計(jì)方法的基準(zhǔn)手段。
Q3:視覺(jué)-慣性融合在人類(lèi)姿態(tài)估計(jì)中的優(yōu)勢(shì)是什么?
A3:視覺(jué)-慣性融合的人體姿態(tài)估計(jì)方法能夠在單目視覺(jué)受限或被遮擋時(shí),利用 IMU 數(shù)據(jù)補(bǔ)充人體運(yùn)動(dòng)信息,從而在保證系統(tǒng)可部署性的同時(shí)提高姿態(tài)估計(jì)穩(wěn)定性。
Q4:人體姿態(tài)估計(jì)方法通常如何進(jìn)行精度驗(yàn)證?
A4:人體姿態(tài)估計(jì)方法的精度通常通過(guò)光學(xué)動(dòng)作捕捉系統(tǒng)獲取的三維人體姿態(tài)真值進(jìn)行評(píng)估,該方式已成為驗(yàn)證工業(yè)人機(jī)協(xié)作與復(fù)雜裝配場(chǎng)景下算法性能的可靠手段。
六、論文及作者簡(jiǎn)介
本研究成果“A deep learning-enabled visual-inertial fusion method for human pose estimation in occluded human-robot collaborative assembly scenarios” 發(fā)表于中科院一區(qū)期刊 Robotics and Computer-Integrated Manufacturing,作者團(tuán)隊(duì)來(lái)自浙江大學(xué)、普渡大學(xué)、瑞典皇家理工學(xué)院等國(guó)際頂級(jí)機(jī)構(gòu)。
作者簡(jiǎn)介
王柏村(通訊作者),浙江大學(xué)機(jī)械工程學(xué)院副院長(zhǎng)、百人計(jì)劃研究員、博士生導(dǎo)師;
宋詞,浙江大學(xué)機(jī)械工程學(xué)院博士研究生;
李興宇,普渡大學(xué)工程技術(shù)學(xué)院助理教授;
周慧穎,浙江大學(xué)機(jī)械工程學(xué)院博士研究生;
楊華勇,中國(guó)工程院院士、浙江大學(xué)工學(xué)部主任、機(jī)械工程學(xué)院教授、博士生導(dǎo)師;
王力翚,加拿大工程院院士、瑞典皇家理工學(xué)院可持續(xù)制造學(xué)教授及系主任。
該研究為人機(jī)協(xié)同裝配中的人體姿態(tài)估計(jì)問(wèn)題提供了可落地的技術(shù)路徑,也展示了NOKOV 度量動(dòng)作捕捉系統(tǒng)在高端機(jī)器人與智能制造研究中的真值支撐能力。

