今年 4 月中旬,特斯拉采購(gòu)團(tuán)隊(duì)來(lái)到寧波一家供應(yīng)商的廠區(qū),做人形機(jī)器人量產(chǎn)前的最后一次審廠。門(mén)口一輛車上,盯梢的人對(duì)上了車牌,拍下照片發(fā)給 “上線”:“特斯拉來(lái)審廠了。”
值得這么麻煩。第二個(gè)交易日,這家公司股價(jià)照例漲停。從特斯拉 2022 年 10 月第一次對(duì)外展示人形機(jī)器人至今,A 股機(jī)器人概念板塊漲了 93%,同期滬深 300 指數(shù)只上漲約 1%。
一周后,數(shù)千個(gè)組裝完成的核心零部件在寧波裝船,頂著高昂關(guān)稅,發(fā)往美國(guó)加州弗里蒙特的特斯拉工廠。
這里沒(méi)有一點(diǎn)萬(wàn)億概念板塊的樣子。弗里蒙特工廠二樓的機(jī)器人制造專區(qū),沒(méi)有手臂和腦袋的機(jī)器人系著鐵鏈,掛在架子上。工程師測(cè)試完零件后,會(huì)把它們手工拼裝成新款人形機(jī)器人。地面上散落著電線和塑料包裝。
自特斯拉 2022 年亮相機(jī)器人后,全球的風(fēng)險(xiǎn)投資者、特斯拉及供應(yīng)商已為此投入超過(guò) 1000 億元。到目前為止,人形機(jī)器人的生產(chǎn)比勞力士機(jī)械表還要手作。據(jù)我們了解,特斯拉下的零部件訂單,只要求今年交付不少于 5600 套。中國(guó)公司中,宇樹(shù)今年預(yù)計(jì)出貨約 4000 臺(tái),智元預(yù)計(jì)賣出超千臺(tái)。按照目前的進(jìn)展,今年全球人形機(jī)器人行業(yè)預(yù)計(jì)出貨近 2 萬(wàn)臺(tái),大約是勞力士一個(gè)星期的產(chǎn)量。
從完全遙控參與的北京亦莊機(jī)器人馬拉松、宇樹(shù)機(jī)器人拳擊賽,到特斯拉自己公布的機(jī)器人倒垃圾、清理桌面視頻。人形機(jī)器人還遠(yuǎn)不是科幻片里想象的靈活形象,也沒(méi)有在任何一個(gè)工廠被證明有直接替代藍(lán)領(lǐng)工人的效率。
但期望已經(jīng)被打滿,不只因?yàn)楣善笔袌?chǎng)的投機(jī),也因?yàn)槿藗兇_實(shí)期望技術(shù)能解決現(xiàn)實(shí)困境。咖啡店、奶茶店,年輕店員忙到崩潰已經(jīng)成為一種新聞模板,工廠招不到年輕人也早已不是歐美獨(dú)有的問(wèn)題。對(duì)便宜商品的渴望,對(duì)重復(fù)工作的厭惡,不知疲倦的機(jī)器人看著像是最容易的解法。
大規(guī)模生產(chǎn)還沒(méi)開(kāi)始,但跨越國(guó)境,幾千工程師已經(jīng)忙活了好幾年。一位接近特斯拉機(jī)器人關(guān)鍵供應(yīng)商三花智控的人士說(shuō),特斯拉美國(guó)工程師現(xiàn)在每天工作 16 個(gè)小時(shí),很多供應(yīng)商也是按照同樣的節(jié)奏工作。以至于雙方每天有 8 小時(shí)交集,毫無(wú)時(shí)差問(wèn)題。
去年底, 特斯拉終于與部分供應(yīng)商簽訂供貨協(xié)議。這是一個(gè)實(shí)驗(yàn)品走出實(shí)驗(yàn)室,走向工廠變成嚴(yán)肅工業(yè)品的關(guān)鍵一步。它的 Optimus 也是唯一一個(gè)進(jìn)入量產(chǎn)階段、可以說(shuō)有完整供應(yīng)鏈的人形機(jī)器人。
過(guò)去半年,我們?cè)L談了 30 多位人形機(jī)器人相關(guān)從業(yè)者,有特斯拉員工和它的供應(yīng)鏈人士,也有中國(guó)的創(chuàng)業(yè)者和相關(guān)分析師,我們以特斯拉機(jī)器人的研發(fā)、生產(chǎn)為例,呈現(xiàn)人形機(jī)器人作為一個(gè)產(chǎn)品和產(chǎn)業(yè)的現(xiàn)實(shí)。
用精密制造還原血肉之軀
人體是人類科學(xué)目前無(wú)法企及的精妙設(shè)計(jì)。比如當(dāng)你俯身抱起 20 公斤的大箱子,全身肌肉都會(huì)參與聯(lián)動(dòng):力從腳底開(kāi)始,腳踝關(guān)節(jié)微曲,讓重心下沉,大小腿的肌群隨即接管;腰腹部的深層核心肌肉鎖住腰椎,防止損傷;當(dāng)雙手抱住箱子時(shí),肩胛已經(jīng)收緊,為手臂提供支點(diǎn);起身則是腿和臀一同上蹬,將力量沿著軀干、肩胛送到前臂,讓箱子平穩(wěn)離開(kāi)地面。而控制這一切,人的大腦基本都不太需要工作。
人形機(jī)器人不能像人一樣裝 600 多個(gè)電機(jī)再協(xié)作,這太過(guò)于復(fù)雜。不算最復(fù)雜的雙手,一臺(tái)特斯拉最新第三代機(jī)器人的動(dòng)作,完全靠約 30 個(gè)執(zhí)行器完成。
你可以把執(zhí)行器想象成機(jī)器人的肌肉,任何運(yùn)動(dòng)都是執(zhí)行器把電能轉(zhuǎn)換成動(dòng)作的過(guò)程。這也是機(jī)器人最貴的部分,執(zhí)行器占整個(gè)機(jī)器人 55% 的硬件成本。
之前,幾乎所有人形機(jī)器人的執(zhí)行器都是旋轉(zhuǎn)關(guān)節(jié),用單個(gè)電機(jī)讓手腕或者膝蓋翻轉(zhuǎn),多個(gè)關(guān)節(jié)聯(lián)動(dòng)就能行走、抓取。這項(xiàng)技術(shù)路徑明確,零件都是現(xiàn)成的:一個(gè)關(guān)節(jié)里,電機(jī)經(jīng)減速器放大扭矩并帶動(dòng)軸承;編碼器把運(yùn)動(dòng)反饋成電信號(hào),力矩傳感器監(jiān)測(cè)載荷。但旋轉(zhuǎn)關(guān)節(jié)有個(gè)致命弱點(diǎn)——沒(méi)法干活,因?yàn)榱α縼?lái)自電機(jī)的扭矩,在人類體積下,扭矩有限,于是承重受限。
特斯拉改用直線關(guān)節(jié):電機(jī)繞絲杠旋轉(zhuǎn),把旋轉(zhuǎn)變成直線推拉,像擰螺絲。絲杠既當(dāng) “骨頭” 也當(dāng) “肌肉”。普通絲杠摩擦大、精度差,業(yè)界在螺紋里加滾珠,把滑動(dòng)摩擦變滾動(dòng)摩擦,卻仍撐不起所需重量。
工程師于是把滾珠換成數(shù)十根小螺桿,讓它們環(huán)繞主絲杠滾動(dòng)、自轉(zhuǎn),像行星繞太陽(yáng),既減摩擦又增加承載力,才滿足直線關(guān)節(jié)的力量和精度要求。
這就是行星滾柱絲杠,目前特斯拉選定的供應(yīng)商包括舍佛勒、新劍傳動(dòng)和北特科技。特斯拉在 2023 年展示,人形機(jī)器人腿部的直線執(zhí)行器可以掛住半噸重的鋼琴。
左為旋轉(zhuǎn)執(zhí)行器,右為直線執(zhí)行器。來(lái)源:特斯拉。
滾柱絲杠保證機(jī)器人的操作具備足夠精度,且機(jī)械結(jié)構(gòu)足夠強(qiáng)韌。但要讓機(jī)器人有足夠的力氣,還要加裝另一個(gè)同樣關(guān)鍵的部件——減速器。
高速轉(zhuǎn)動(dòng)的小齒輪帶動(dòng)減速器的大齒輪,能在降低轉(zhuǎn)速的同時(shí),放大小齒輪的扭力,控制機(jī)器人發(fā)出的力道。特斯拉目前使用的 RV 減速器最高可以把電機(jī)輸出的扭力放大 200 倍,供應(yīng)商為哈默納科和綠的諧波。
哈默納科減速器。來(lái)源:哈默納科官網(wǎng)。
執(zhí)行器人形機(jī)器人的肢體有足夠的自由度,可以盡可能模擬人的操作。要讓它站穩(wěn)、學(xué)會(huì)走路,還要給機(jī)器人加裝陀螺儀、力傳感器、速度傳感器和控制器。
直到現(xiàn)在,所有人形機(jī)器人都無(wú)法做到安靜行走,它們每走一步,腳都會(huì)重重砸向地面,沒(méi)有公司能做到精確控制機(jī)器人行走時(shí)腳的力度。不少公司選擇給機(jī)器人穿上鞋來(lái)緩沖。
很多機(jī)器人的腳是一塊鐵板,無(wú)法精確感知行走時(shí)路面的反饋,工程師的解決思路是在腳踝上安裝六維力傳感器,感受重心變化。
六維力傳感器的工作方式與電子秤類似,但更復(fù)雜。它通過(guò)內(nèi)部三根交叉的彈片的變形程度來(lái)測(cè)量三個(gè)方向產(chǎn)生的不同的壓力,彈片每壓彎一些,傳導(dǎo)出的電信號(hào)就增強(qiáng)一些,反饋給控制器,轉(zhuǎn)化成電機(jī)可以理解的語(yǔ)言,確定向哪個(gè)方向轉(zhuǎn)動(dòng),速度是多少。目前業(yè)內(nèi)最先進(jìn)的六維力傳感器對(duì)力距的測(cè)量誤差小于 0.2%。
六維力傳感器售價(jià)超過(guò) 1.2 萬(wàn)元人民幣,對(duì)大部分機(jī)器人公司來(lái)說(shuō)太貴了。特斯拉等公司意圖優(yōu)化軟件來(lái)替代它,但還沒(méi)人成功。目前特斯拉采用的六維力傳感器來(lái)自美國(guó)得州的合成材料公司 ATI(和 AMD 收購(gòu)的加拿大 GPU 芯片公司 ATI 沒(méi)什么關(guān)系)。
ATI 的六維力傳感器。來(lái)源:ATI。
讓機(jī)器人能夠像人一樣使用各種工具,關(guān)鍵在于手。人手有 27 個(gè)自由度(關(guān)節(jié)能向 27 個(gè)方向單獨(dú)彎曲或旋轉(zhuǎn))、行動(dòng)靈活,遍布高敏感的觸覺(jué)神經(jīng),力控能力強(qiáng)大。一位靈巧手公司創(chuàng)始人說(shuō),靈巧手的復(fù)雜度比機(jī)器人其余硬件加起來(lái)都復(fù)雜。目前主流的人形機(jī)器人自由度在 20~50 個(gè),而靈巧手的自由度就有 20 個(gè)以上。
特斯拉機(jī)器人團(tuán)隊(duì)專門(mén)設(shè)置了靈巧手部門(mén),與運(yùn)動(dòng)控制等部門(mén)同級(jí)。過(guò)去三年多,特斯拉的工程師嘗試了至少三種差別極大的方案模擬人手,小改動(dòng)不計(jì)其數(shù)。
特斯拉 2024 年 10 月亮相的第三代 Optimus 靈巧手。來(lái)源:特斯拉。
現(xiàn)在特斯拉用鋼絲制成的繩驅(qū)來(lái)模仿人手肌肉組織,他們希望盡量減少機(jī)器手運(yùn)動(dòng)時(shí)產(chǎn)生的動(dòng)力損耗和遲滯。
工程師們把提供力量的電機(jī)放置到手腕里,電機(jī)連著鋼絲來(lái)控制手指彎曲伸展,原理類似提線木偶,目前已經(jīng)復(fù)刻出至少 22 個(gè)自由度。
傳感器是模擬人類感知能力的關(guān)鍵。業(yè)內(nèi)相對(duì)成熟的新型傳感器是柔性力傳感器——所謂電子皮膚。通過(guò)把諸多微型力傳感器集成到柔軟的材料上,以模擬皮膚的觸覺(jué)。力傳感器在電子皮膚上的排列方式類似于像素點(diǎn)在顯示屏上的排列,力傳感器密度越高,它對(duì)物體輪廓、摩擦力的感知就越細(xì)致。
電子皮膚供應(yīng)商帕西尼可以做到在食指第一節(jié)指腹放置超過(guò) 100 個(gè)力傳感器。一家國(guó)內(nèi)的電子皮膚公司創(chuàng)始人說(shuō),他們能讓機(jī)器手摸清楚雞胸肉后面雞骨頭的位置和輪廓。目前大部分機(jī)器人公司都只在機(jī)器人指頭和手掌處使用電子皮膚。
最后,旭升股份和拓普提供的鋁合金結(jié)構(gòu)件最終將各個(gè)關(guān)節(jié)部位連接起來(lái),做成人的樣子,就構(gòu)成了特斯拉人形機(jī)器人的基礎(chǔ)形狀。
特斯拉等公司還仍在探索更多新型傳感器模擬人的感知能力。供應(yīng)商們萌生了很多新奇想法,如用類似煙霧報(bào)警器的技術(shù)制造嗅覺(jué)傳感器,用電子羅盤(pán)制造位置傳感器,但少有公司把它們用到產(chǎn)品中。
幾百家供應(yīng)鏈公司的全新冒險(xiǎn)
2022 年上半年,特斯拉美國(guó)的汽車制造生產(chǎn)(Manufacturing Production)部門(mén)陸續(xù)聯(lián)系全球數(shù)百家公司,要求研發(fā)、生產(chǎn)特定零部件。
其中有一些全球領(lǐng)先的老牌精密制造公司,有為月球車造零件的日本諧波減速器制造商哈默納科、德國(guó)數(shù)控機(jī)床公司舍佛勒、做了 80 年傳感器的美國(guó)霍尼韋爾、精密軸承制造商日本精工等。
還有數(shù)百家中國(guó)公司收到了邀請(qǐng)——主要是特斯拉的汽車零部件供應(yīng)商。特斯拉的工程師列出數(shù)百種零件的規(guī)格要求,讓供應(yīng)商報(bào)價(jià)、送樣,但沒(méi)說(shuō)用在哪里。一家當(dāng)時(shí)只有 20 人的中國(guó)觸覺(jué)傳感器創(chuàng)業(yè)公司也接到了問(wèn)詢,他們以為是用于汽車座椅按鈕。
很快供應(yīng)商們就發(fā)現(xiàn)了這次的訂單不同尋常:零部件設(shè)計(jì)在快速迭代,有時(shí)半個(gè)月就改一版;精度要求比以往的汽車訂單高很多,有的公司自己怎么也搞不定,最后還是特斯拉的工程師給了解決辦法。
等到那年 10 月 1 日,渾身外露電線和風(fēng)扇的第一代 Optimus 機(jī)器人在特斯拉 AI Day 登臺(tái),一些公司到此時(shí)才知道自己參與了人形機(jī)器人的研發(fā)。發(fā)布會(huì)上,馬斯克允諾這將是 100 億臺(tái)保有量的超級(jí)生意,會(huì)改變?nèi)蚪?jīng)濟(jì)結(jié)構(gòu)。
難度在于馬斯克不接受波士頓動(dòng)力等公司過(guò)去 30 年的設(shè)計(jì)思路,要求做到擬人:
- 身高、體重要接近成年人,不能只有 1.3 米高;
- 可以筆直站立的兩條腿,不是輪子,也不能像波士頓動(dòng)力機(jī)器人一樣為平衡永遠(yuǎn)彎曲;
- 手臂末端得有能靈活運(yùn)動(dòng)的 10 根手指,而不是一個(gè)圓形鐵球或夾爪。
他認(rèn)為,只有把機(jī)器人造得像人,機(jī)器人才能使用人類的工具,出入一切為人類設(shè)計(jì)的工作空間,于是得到更廣泛的使用,實(shí)現(xiàn)規(guī)?;瘡亩档统杀?,進(jìn)入正向的商業(yè)循環(huán)。這和他造火箭是一個(gè)思路。
“最開(kāi)始很糾結(jié),如果你不信,別人信了,那機(jī)會(huì)就是別人的,你不僅要信,還要信得比別人早。” 一位參與研發(fā)的供應(yīng)商的高管說(shuō)。到現(xiàn)在他們公司已經(jīng)為此累計(jì)投入超過(guò) 50 億元。
三花智控和拓普集團(tuán)是最支持特斯拉的供應(yīng)商。過(guò)去 10 多年,依靠與特斯拉的合作,從小型汽車零部件公司成長(zhǎng)為千億市值公司。
“鄔建樹(shù)(拓普集團(tuán)創(chuàng)始人)歲數(shù)很大了,在公司內(nèi)部復(fù)盤(pán)自己的職業(yè)生涯說(shuō),核心就是 ‘財(cái)運(yùn)好’,抱上了特斯拉這個(gè)新能源時(shí)代最粗的大腿,拓普的戰(zhàn)略就是相信特斯拉,相信馬斯克?!?一位接近拓普的人士說(shuō)。
給特斯拉供貨不僅意味著訂單,還有技術(shù)扶持。特斯拉幾乎重新設(shè)計(jì)了機(jī)器人用到的 6 種電機(jī),提升功率密度,讓 Optimus 變得更瘦更輕的同時(shí),力氣更大。
一位知情人士稱,一家特斯拉選定的供應(yīng)商做了兩年無(wú)框力矩電機(jī),依然無(wú)法滿足特斯拉要求,特斯拉就把圖紙和技術(shù)方案授權(quán)給他們,讓他們代工生產(chǎn)。
“做機(jī)器人面罩的塑料沒(méi)有技術(shù)含量。但你能做特斯拉的生意,那就不一樣?!?一位二級(jí)市場(chǎng)投資人說(shuō)。目前仍有數(shù)十家公司持續(xù)給特斯拉送樣,以期成為供應(yīng)商。
一些公司送樣只是為了得到特斯拉對(duì)樣品的反饋,知道零件技術(shù)參數(shù)的要求。這可能幫他們成為其他人形機(jī)器人公司供應(yīng)商。
供應(yīng)商們將這場(chǎng)行動(dòng)形容為跑馬拉松——持續(xù)有人掉隊(duì),掉隊(duì)的人失去機(jī)會(huì),可能再也追不上。因?yàn)榧夹g(shù)和設(shè)計(jì)一直在迭代,哪怕只有一輪迭代沒(méi)跟上,就無(wú)法進(jìn)入新的開(kāi)發(fā)階段。
到現(xiàn)在,整個(gè)供應(yīng)鏈數(shù)百家公司已經(jīng)陪特斯拉做了三年機(jī)器人硬件開(kāi)發(fā),搭起了第一條完整的人形機(jī)器人供應(yīng)鏈。宇樹(shù)、波士頓動(dòng)力等公司都自己設(shè)計(jì)并制造大量零部件,很少大規(guī)模外采關(guān)鍵零件。他們也很難像特斯拉這樣得到整條供應(yīng)鏈的鼎力支持。
6 萬(wàn)美元的成本,敵不過(guò)月薪 5000 元的工人
特斯拉正在同時(shí)生產(chǎn)第二代和第三代人形機(jī)器人,第三代產(chǎn)品硬件設(shè)計(jì) 80% 已經(jīng)定型。這并不意味著這 80% 的零件已經(jīng)足夠好,無(wú)需改進(jìn),而是以現(xiàn)有的加工能力和相對(duì)可接受的成本下,能做到的程度。具體是這樣的:
- 身高 1.72 米,體重 55 公斤,自由度是人類的五分之一,有 50 個(gè)以上可以活動(dòng)的關(guān)節(jié)。
- 身體骨架由鋁合金制成,外殼是 peek 樹(shù)脂材料,抗拉伸強(qiáng)度是鋼鐵的 2 倍,但更輕。
- 胃里裝著十多節(jié)圓柱電池,滿電情況下能支撐它工作 5 個(gè)小時(shí),和人吃飽飯后的工作時(shí)長(zhǎng)接近。
- 頭部、胸口都遍布攝像頭當(dāng)眼睛,特斯拉堅(jiān)持純視覺(jué)路線,機(jī)器人依靠攝像頭傳輸?shù)膱D像信息識(shí)別周圍。但也有公司給機(jī)器人加上激光雷達(dá)。
- 驅(qū)動(dòng)手指的電機(jī)都放置在直徑和成人手臂相當(dāng)?shù)那氨壑?,五指承載力為 5 公斤 。
- 雙臂大概能搬動(dòng) 20 公斤的重物,這已經(jīng)高于中國(guó)《職業(yè)病防治法》對(duì)工人最多搬運(yùn) 15 公斤重物的要求。
- 一小時(shí)能走 8~10 公里,和人類小跑速度相當(dāng),但有可能會(huì)摔倒,第二代測(cè)試時(shí)只有 60% 能走完 1.5 公里不摔倒。
- 神經(jīng)系統(tǒng)由內(nèi)部的電線和局部以太網(wǎng)構(gòu)成,傳輸速度遠(yuǎn)低于人類神經(jīng),且因?yàn)閭鞲衅骷夹g(shù)尚不完善,機(jī)器人神經(jīng)傳輸?shù)碾娦盘?hào)比人類神經(jīng)簡(jiǎn)單很多。
按照上述硬件方案,特斯拉最新的人形機(jī)器人造價(jià)大概是 6 萬(wàn)美元。離馬斯克追求的 2 萬(wàn)~3 萬(wàn)美元還有很大差距。并不是說(shuō) 6 萬(wàn)美元買(mǎi)個(gè)機(jī)器人就能一直用。
一個(gè)關(guān)鍵問(wèn)題是關(guān)節(jié)里的行星滾柱絲杠一根單價(jià)超過(guò) 4000 元,而每臺(tái)機(jī)器人需要 14 根,裝在大腿、手臂上。
特斯拉對(duì)行星滾柱絲杠的要求是滾完 3.15 厘米的距離后,位置的誤差小于 6 微米,誤差值只有總長(zhǎng)度的 1/50000——允許的誤差空間,連細(xì)菌都鉆不進(jìn)去。
價(jià)格更低,絲杠精度就會(huì)降低,這會(huì)讓機(jī)器人運(yùn)動(dòng)時(shí)產(chǎn)生震動(dòng)和異響,就像人類骨骼錯(cuò)位會(huì)發(fā)出聲音。多余的震動(dòng)和摩擦?xí)档完P(guān)節(jié)的使用壽命。
有供應(yīng)鏈公司人士說(shuō),最初只有舍弗勒的滾柱絲杠能滿足特斯拉的工程要求。但這個(gè)關(guān)鍵零件的產(chǎn)能也是問(wèn)題。一位曾給特斯拉送樣的絲杠供應(yīng)商說(shuō),去年底他們工廠每個(gè)月只能生產(chǎn) 300 根符合要求的行星滾柱絲杠,只夠造 10 多臺(tái)機(jī)器人。
為了平衡成本和產(chǎn)能,特斯拉機(jī)器人去年底降低滾柱絲杠的精度要求,從 C0 級(jí)下調(diào)至 C3 級(jí),削減一半的絲杠成本。
特斯拉最近發(fā)布的視頻顯示,第三代人形機(jī)器人能靈活跳芭蕾,也會(huì)使用多種工具完成任務(wù),如拿鍋鏟炒菜、撕廚房紙、用刷子清理桌面、掀開(kāi)垃圾桶蓋丟垃圾。但這只是精心挑選的視頻片段,加速后效率也遠(yuǎn)遠(yuǎn)比不上正常人。
每個(gè)零件運(yùn)轉(zhuǎn)時(shí)產(chǎn)生的誤差會(huì)互相影響,最終讓機(jī)器人摔倒。零件越輕,關(guān)節(jié)運(yùn)動(dòng)時(shí)慣性越小,算法對(duì)操作的控制精確度就會(huì)越高。
Optimus 最像人的地方可能是長(zhǎng)時(shí)間工作后會(huì)疲憊。機(jī)器人長(zhǎng)時(shí)間工作時(shí),關(guān)節(jié)中的電機(jī)和減速器溫度會(huì)超過(guò) 70 度,會(huì)因?yàn)檫^(guò)熱而降頻。機(jī)器人采用的電機(jī)參數(shù)與無(wú)人機(jī)電機(jī)類似,但無(wú)人機(jī)可以通過(guò)氣流散熱,機(jī)器人不行。
這本質(zhì)上是材料問(wèn)題,“要讓電機(jī)不發(fā)熱,就得降低電阻,換言之,需要室溫超導(dǎo)材料,才能完全解決電機(jī)發(fā)熱問(wèn)題。” 一位電機(jī)工程師說(shuō)。
一位機(jī)器人公司高管稱,Optimus 在汽車工廠工作的平均速度只有人類的 20%~30%,極個(gè)別簡(jiǎn)單動(dòng)作能到人類速度的 60%。
60000 美元一臺(tái)的機(jī)器人不只是效率比人低,它的實(shí)際成本也遠(yuǎn)遠(yuǎn)高過(guò)造價(jià)。
從走路到拿東西,機(jī)器人的運(yùn)動(dòng)及與物體的碰撞,都會(huì)磨損機(jī)體,而且不會(huì)像人體那樣自我修復(fù)。比如諧波減速器等精密器件的使用壽命普遍為 8000 小時(shí),8 小時(shí)工作制下能用不到 3 年,但壞了只能換。行星滾柱絲杠的使用壽命更低。
特斯拉當(dāng)前的方案解決了手指動(dòng)作的連貫性難題,但也削弱了手指的力量,整個(gè)結(jié)構(gòu)的負(fù)載能力都要靠鋼絲和電機(jī)支撐,且連接手指和手腕的鍵繩很容易斷。
“目前市場(chǎng)上能買(mǎi)到的靈巧手,最大的問(wèn)題還不是不夠 “靈巧”,而是不耐摔。” 一位機(jī)器人工程師說(shuō),因?yàn)樗惴ㄈ毕蓦y,大部分靈巧手的大拇指、小拇指都難以感應(yīng)手放下來(lái)的力度,導(dǎo)致磕壞。
質(zhì)量差的靈巧手只能連續(xù)用一個(gè)月左右,好一點(diǎn)的能撐三個(gè)月。而且靈巧手摔壞很難維修,只能換。中國(guó)公司現(xiàn)在能把 20 個(gè)自由度靈巧手的單價(jià)壓到 5 萬(wàn)人民幣,兩只手每三個(gè)月?lián)Q一次成本是 10 萬(wàn)。一位靈巧手公司創(chuàng)始人說(shuō),他們正在想辦法把飛機(jī)機(jī)翼上的高強(qiáng)度材料用到機(jī)器人手上,讓它更耐摔。
硬件天花板下的 AI 賭注
硬件很難在短時(shí)間內(nèi)有大幅提升,許多人形機(jī)器人從業(yè)者希望用軟件解決硬件問(wèn)題,讓機(jī)器人有更好的表現(xiàn)。
過(guò)去 70 年,機(jī)器人運(yùn)動(dòng)控制技術(shù)都由控制理論主導(dǎo)。波士頓動(dòng)力是這一路線的代表,他們的機(jī)器人經(jīng)過(guò)數(shù)十年的優(yōu)化,可以翻跟頭。這些高難度肢體動(dòng)作背后,實(shí)際上是機(jī)器人根據(jù)規(guī)則回放動(dòng)作。
它的進(jìn)步來(lái)自工程優(yōu)化,工程師畫(huà)出完美的行動(dòng)軌跡,一遍遍校準(zhǔn)坐標(biāo),修正參數(shù),讓它的動(dòng)作變得柔順高效,無(wú)限接近數(shù)學(xué)上的完美結(jié)果。
過(guò)去十年,機(jī)器人行業(yè)引入強(qiáng)化學(xué)習(xí)技術(shù),訓(xùn)練機(jī)器人的運(yùn)動(dòng)控制算法,依托大量真實(shí)采集和仿真模擬生成的數(shù)據(jù)不斷強(qiáng)化機(jī)器人底層運(yùn)動(dòng)控制算法,讓它們更熟練地奔跑、跳舞,甚至像模像樣的格斗。
不過(guò)它的底層邏輯是用強(qiáng)化學(xué)習(xí)替代軟件規(guī)則運(yùn)動(dòng)控制,這種方式依然很難讓機(jī)器人產(chǎn)生真正的智能。
一位人形機(jī)器人創(chuàng)業(yè)者舉了個(gè)例子,數(shù)萬(wàn)次調(diào)試可以讓機(jī)器人可以熟練操控重心,學(xué)會(huì)行走。但如果你讓機(jī)器人端一個(gè)放著鐵球的箱子行走,算法教給它的能力就會(huì)失效,它無(wú)法處理鐵球滾動(dòng)對(duì)重心的影響。
機(jī)器人每遇到新的特殊情況,工程師就需要重新訓(xùn)練模型,再教機(jī)器人一次。它們很難擁有大家期待的 “泛化性”,不會(huì)觸類旁通。
“如果要讓人形機(jī)器人學(xué)會(huì)像人一樣,把全中國(guó)的工程師都堆過(guò)來(lái)寫(xiě)規(guī)則也不夠。” 這位創(chuàng)業(yè)者說(shuō)。有些公司一度養(yǎng)了 3000 人寫(xiě)規(guī)則,都解決不了自動(dòng)駕駛問(wèn)題。而自動(dòng)駕駛只是人形機(jī)器人需要解決的成千上萬(wàn)個(gè)問(wèn)題中的一個(gè)而已。
人形機(jī)器人行業(yè)希望像大模型和端到端自動(dòng)駕駛一樣,依靠大量數(shù)據(jù)訓(xùn)練,機(jī)器人自己學(xué)習(xí)如何理解世界、然后執(zhí)行任務(wù)。
比如文生圖模型中,工程師讓模型理解馬和宇航員的特征后,會(huì)產(chǎn)生泛化性,畫(huà)出宇航員騎馬這種現(xiàn)實(shí)世界并不存在的畫(huà)面。研究者們相信,機(jī)器人模型可以有類似的效果,學(xué)會(huì)兩種不同的動(dòng)作后,會(huì)自己推理組合出第三種動(dòng)作。
這是業(yè)內(nèi)目前認(rèn)可的主流的機(jī)器人大腦訓(xùn)練方案—— VLA( vision-language-action ,視覺(jué)語(yǔ)言動(dòng)作模型)。用戶提出任務(wù)后,語(yǔ)言和視覺(jué)融合模型,可以理解周圍的環(huán)境,并與用戶指令結(jié)合,形成運(yùn)動(dòng)軌跡,然后調(diào)動(dòng)執(zhí)行模塊完成任務(wù)。
最理想狀態(tài)下,機(jī)器人使用的模型會(huì)是 “端到端” 的,人類告訴機(jī)器人動(dòng)作指令,如要求機(jī)器人下樓倒垃圾,模型就能輸出電機(jī)轉(zhuǎn)速控制參數(shù),讓它完成任務(wù)。在這一路線下,強(qiáng)化學(xué)習(xí)等也是提高人形機(jī)器人運(yùn)動(dòng)控制能力的一部分,就像經(jīng)過(guò)強(qiáng)化學(xué)習(xí)的大語(yǔ)言模型,能夠變得更強(qiáng)那樣。
但這個(gè)路線做出來(lái)的人形機(jī)器人,完成基礎(chǔ)動(dòng)作的時(shí)候相當(dāng)遲緩,大多數(shù)公司展示視頻都是加速播放,有一些公司放出來(lái)未加速視頻,還會(huì)被吐槽為美國(guó)前總統(tǒng)的模擬器。
數(shù)據(jù)是目前機(jī)器人大腦發(fā)育最大的障礙。研究者訓(xùn)練大語(yǔ)言模型,可以從互聯(lián)網(wǎng)上收集文本、圖像等公開(kāi)數(shù)據(jù),汽車公司可以通過(guò)數(shù)百萬(wàn)輛汽車上的攝像頭等傳感器不斷獲取新數(shù)據(jù)。
現(xiàn)在所有機(jī)器人公司喂給模型的數(shù)據(jù)規(guī)模,還無(wú)法驗(yàn)證 VLA 路線是否能夠像大語(yǔ)言模型那樣有效。一位機(jī)器人公司技術(shù)負(fù)責(zé)人說(shuō),初步檢測(cè) VLA 的學(xué)習(xí)能力,至少要 1000 萬(wàn)條高質(zhì)量的真機(jī)數(shù)據(jù),但大部分公司只能提供不到 100 萬(wàn)條有效數(shù)據(jù)。而這 “ 1000 萬(wàn)條” 的數(shù)據(jù)要求,也是猜測(cè)。
這些真機(jī)數(shù)據(jù)需要靠人穿戴 VR 設(shè)備或動(dòng)捕服裝采集,有限且昂貴,擴(kuò)展性也不好。我們了解到,國(guó)內(nèi)頭部的人形機(jī)器人創(chuàng)業(yè)公司采集一條真機(jī)數(shù)據(jù)的成本是 10 元,數(shù)據(jù)采集員每小時(shí)大概能生產(chǎn) 2 條有價(jià)值的訓(xùn)練數(shù)據(jù)。為了訓(xùn)練機(jī)器人的應(yīng)變能力,采集數(shù)據(jù)時(shí)通常一人拿手柄操作機(jī)器人,一人干擾機(jī)器人,比如在機(jī)器人即將拿到杯子時(shí),把杯子移開(kāi)。
他們認(rèn)為,真機(jī)數(shù)據(jù)是提高人形機(jī)器人模型能力的關(guān)鍵,在虛擬環(huán)境中仿真、視頻數(shù)據(jù)都是輔助。
逐際動(dòng)力創(chuàng)始人張巍說(shuō),從第一性原理出發(fā),讓機(jī)器人學(xué)會(huì)部分基礎(chǔ)操作并不需要真機(jī)采集數(shù)據(jù),“告訴機(jī)器人拿杯子時(shí)需要抓住把手這件事,需要 1 萬(wàn)條數(shù)據(jù)嗎?這是個(gè)常識(shí),互聯(lián)網(wǎng)級(jí)別的數(shù)據(jù)就能訓(xùn)?!?/p>
用視頻數(shù)據(jù)訓(xùn)練機(jī)器人,第一步是給視頻里的人類關(guān)節(jié)標(biāo)點(diǎn),抽取人類行動(dòng)的軌跡數(shù)據(jù),再同步映射到機(jī)器人的執(zhí)行器關(guān)節(jié),通過(guò)運(yùn)動(dòng)控制算法得出電機(jī)旋轉(zhuǎn)的速度和機(jī)器人肢體末端的坐標(biāo)信息。
用互聯(lián)網(wǎng)數(shù)據(jù)訓(xùn)練機(jī)器人的下一步是用 AI 生成的視頻訓(xùn)練機(jī)器人。這種方式的訓(xùn)練效果取決于工程師對(duì)視頻的理解,“沒(méi)有好的理解,就沒(méi)有好的生成。” 張巍說(shuō)。
仿真模擬數(shù)據(jù)供應(yīng)商光輪智能創(chuàng)始人謝晨說(shuō),簡(jiǎn)單的仿真和視頻圖像中并不包含物理信息,訓(xùn)練機(jī)器人最重要的數(shù)據(jù),應(yīng)該是機(jī)器人與物理世界的交互數(shù)據(jù)。機(jī)器人要像人一樣與物理世界接觸,而不是像自動(dòng)駕駛車那樣總是避免物理碰撞。
光輪智能正在探索用仿真模擬生成出各種場(chǎng)景、動(dòng)作下的物理信息來(lái)訓(xùn)練機(jī)器人。他們會(huì)讓工程師帶著力距測(cè)量?jī)x器,去開(kāi)數(shù)百種冰箱門(mén),收集不同的冰箱門(mén)外形和開(kāi)冰箱的力的數(shù)據(jù),以此完成建模,并模擬生成物理力學(xué)屬性,包括冰箱門(mén)的質(zhì)量、摩擦力、角動(dòng)量以及鉸鏈結(jié)構(gòu)的磁吸力、阻尼等。
當(dāng)以上 Real-to-Sim (現(xiàn)實(shí)到模擬)步驟完成后,還需要 Sim-to-Real (模擬到現(xiàn)實(shí)),即通過(guò)數(shù)據(jù)泛化的手段改變虛擬環(huán)境中冰箱的位置、光線、角度、材質(zhì)等,讓生成的數(shù)據(jù)覆蓋不同的現(xiàn)實(shí)場(chǎng)景,讓機(jī)器人真正學(xué)會(huì)認(rèn)識(shí)現(xiàn)實(shí)世界的 “冰箱”。
我們問(wèn)了十多位具身智能模型的研究者:現(xiàn)在主流的機(jī)器人大腦訓(xùn)練路線,真的能讓機(jī)器人舉一反三嗎?沒(méi)人給出肯定回答。
機(jī)器人行業(yè)的大部分公司都寄希望于具身智能模型釋放人形機(jī)器人的能力,風(fēng)險(xiǎn)投資者也愿意給押注模型的公司更高估值。他們認(rèn)為,機(jī)器人的 ChatGPT 時(shí)刻很快就會(huì)到來(lái)。
剛成立 2 年的智元機(jī)器人,估值已經(jīng)不低于成立 9 年的宇樹(shù)。成立 15 個(gè)月、只研究具身智能模型的 Physical Intelligence,估值已經(jīng)超過(guò) 20 億美元。而 Figure 估值達(dá)到 395 億美元。
但波士頓動(dòng)力 CTO 亞倫·桑德斯(Aaron Saunders)評(píng)價(jià)說(shuō),現(xiàn)在的人形機(jī)器人行業(yè),只是把解決智能難題推給海量數(shù)據(jù),訓(xùn)練機(jī)器人的模型盡可能簡(jiǎn)化,但圍繞著模型的一切都更復(fù)雜了。
已經(jīng)有公司對(duì)標(biāo)泡泡瑪特,想用情緒價(jià)值找出路
四月底,我們見(jiàn)到了人形機(jī)器人領(lǐng)域中最樂(lè)觀的一批投資者。那是北京亦莊機(jī)器人馬拉松結(jié)束后的第三個(gè)交易日。他們?cè)詾檫@場(chǎng)馬拉松是 “空頭辦的”,全程遙控不說(shuō),現(xiàn)場(chǎng)大部分機(jī)器人都跑掉了自己的零件,摔倒了被人扶起來(lái)。
但隨后的幾個(gè)交易日,機(jī)器人供應(yīng)鏈的股價(jià)還是連續(xù)走高,讓他們恢復(fù)了信心。提及比賽第二名跑一半腦袋掉了,一位基金經(jīng)理說(shuō):“頭掉了怎么了,頭掉了不也跑完了,腦袋不重要?!?/p>
敘事可以繼續(xù),但實(shí)際造機(jī)器人的公司已經(jīng)開(kāi)始面對(duì)現(xiàn)實(shí)問(wèn)題。特斯拉今年生產(chǎn)的人形機(jī)器人,主要工作是在特斯拉得州奧斯汀工廠搬東西,比如把傳送帶上的 4680 電池拿下來(lái)放到料箱里。6 萬(wàn)美元相當(dāng)于當(dāng)?shù)匕徇\(yùn)工 15 個(gè)月的薪資,不算維護(hù)成本可以勉強(qiáng)用一下。
不過(guò)按計(jì)劃,特斯拉今年就要造 5000 多臺(tái)機(jī)器人,但取代所有搬電池的工人只需要幾十臺(tái)。那剩下來(lái)的幾千臺(tái)要做什么?“可能是放倉(cāng)庫(kù)里吧。” 一位接近特斯拉人形機(jī)器人團(tuán)隊(duì)的工程師說(shuō)。
其實(shí)撿電池本來(lái)就不用人工,比如寧德時(shí)代電池生產(chǎn)線是用更便宜的工業(yè)機(jī)器臂直接成批把電池抓進(jìn)料箱,一個(gè)人都不用。
其他公司的生產(chǎn)進(jìn)展更差。去年聲稱已經(jīng)將一隊(duì)機(jī)器人送到寶馬工廠 “工作” 的美國(guó)公司 Figure 近期被曝出,其機(jī)器人只是在寶馬的車身車間練習(xí)拾取和放置零部件,僅在非生產(chǎn)時(shí)段運(yùn)營(yíng)。還有一家中國(guó)公司的人形機(jī)器人在汽車工廠上班一周后,被工人開(kāi)叉車送了出來(lái)。
在中國(guó)替代藍(lán)領(lǐng)更難。中國(guó)任何一個(gè)地方的工廠都可以用每月幾千元人民幣的成本雇傭到一雙靈活的手,做復(fù)雜得多的事情。今年的上海車展,小鵬、長(zhǎng)安等公司都開(kāi)始用人形機(jī)器人當(dāng)車模。這才是人形機(jī)器人當(dāng)下最常見(jiàn)的用途。
一位投資了機(jī)器人領(lǐng)域的一級(jí)市場(chǎng)投資人說(shuō),現(xiàn)在已經(jīng)有人形機(jī)器人開(kāi)始對(duì)標(biāo)泡泡瑪特,“現(xiàn)階段都以提供情緒價(jià)值為主”。他的一位同行則說(shuō),能做成泡泡瑪特就很強(qiáng)了,畢竟它市值已經(jīng)超過(guò) 3000 億港元。
特斯拉今年第一季度電話會(huì)上,馬斯克下調(diào)了人形機(jī)器人產(chǎn)量目標(biāo),年產(chǎn) 100 萬(wàn)臺(tái)機(jī)器人的時(shí)間點(diǎn)從 2027 年推遲至 2029 年。
特斯拉 20 年前做電動(dòng)車時(shí),它不需要重新設(shè)計(jì)方向盤(pán)、輪胎。人形機(jī)器人的零件數(shù)量大概 7000 個(gè),比汽車少 30%,但大部分都要重新做。
如一位人形機(jī)器人從業(yè)者所說(shuō),做人形機(jī)器人就像是重新發(fā)明一次汽車,并同步解決自動(dòng)駕駛問(wèn)題。