| 創(chuàng)澤機(jī)器人 |
| CHUANGZE ROBOT |
目前的 VLA 模型(如 OpenVLA、RT-X 等)大多部署在傳統(tǒng)的剛性串聯(lián)機(jī)械臂(如 UR5)上。然而,基于學(xué)習(xí)的策略模型(Learning-based control)本質(zhì)上存在不可預(yù)測性(Unpredictability)。一旦大模型在推理時(shí)產(chǎn)生幻覺或動(dòng)作偏差,沉重且僵硬的剛性機(jī)械臂J易對周圍的人類造成嚴(yán)重的物理傷害。
方法鏈路很清晰:輸入端收集軟體機(jī)器人(Continuum Soft Robot,名為 Embuddy)在不同視角的示范數(shù)據(jù) → 算法適配層針對軟體機(jī)器人的非線性動(dòng)力學(xué)特征,將傳統(tǒng)的動(dòng)作空間映射到柔性控制空間 → 微調(diào)層分別對當(dāng)前Z先進(jìn)的 OpenVLA(采用 OFT 微調(diào))和 (流匹配架構(gòu))進(jìn)行訓(xùn)練 → 執(zhí)行端在不需要額外復(fù)雜碰撞檢測算法的情況下,直接依靠軟體機(jī)器人本身的物理柔順性(Physical Compliance),安全地執(zhí)行諸如“給人喂棉花糖”這種JG風(fēng)險(xiǎn)的物理交互任務(wù)。
具體算法實(shí)現(xiàn)細(xì)節(jié)
Bridging Embodiment Gaps 的核心設(shè)計(jì)圍繞如何讓為剛性機(jī)器人打造的 VLA 模型,成功跨越“具身鴻溝(Embodiment Gap)”,適配到軟體機(jī)器人上。其實(shí)現(xiàn)聚焦三個(gè)關(guān)鍵模塊:具身硬件適配與數(shù)據(jù)流(硬件基礎(chǔ))、不同 VLA 架構(gòu)的微調(diào)對比(算法核心)、極限人機(jī)交互與容錯(cuò)驗(yàn)證(落地場景)。
關(guān)鍵模塊一:軟體具身適配與多視角構(gòu)建
這個(gè)模塊要解決的,是“如何讓大模型看懂并控制軟體手臂”。
雙平臺(tái)對照基準(zhǔn):為了嚴(yán)謹(jǐn)對比,團(tuán)隊(duì)同時(shí)設(shè)置了傳統(tǒng)的剛性機(jī)械臂 UR5(作為 Baseline)和軟體機(jī)器人 Embuddy。
視角處理與對齊:如圖 3 和圖 4 所示,實(shí)驗(yàn)同樣采用了第三人稱視角(3rd-person)和腕部視角(Wrist camera)。需要注意的是,軟體機(jī)器人的腕部在運(yùn)動(dòng)時(shí)形變極大,視野晃動(dòng)劇烈,這極大考驗(yàn)了 VLA 模型對非平穩(wěn)視覺輸入的空間表征與泛化能力
關(guān)鍵模塊二:OpenVLA 與的部署與性能對抗
解決“哪種 VLA 架構(gòu)更適合控制軟體機(jī)器人”的問題。
損失函數(shù)與收斂:如圖 5 所示,團(tuán)隊(duì)完整記錄了 OpenVLA-OFT(正交微調(diào))和基于流匹配(Flow Matching)的 模型在軟體機(jī)器人上的訓(xùn)練損失曲線。
實(shí)驗(yàn)證明,即便是在軟體驅(qū)動(dòng)這種全新的動(dòng)作空間下,兩者都能在少量專家數(shù)據(jù)支持下穩(wěn)定收斂。成功率與控制表現(xiàn):如圖 2 所示的成功率對比圖表,在抓取、放置等標(biāo)準(zhǔn)任務(wù)中, 憑借其連續(xù)的時(shí)間流生成機(jī)制,在處理軟體機(jī)器人復(fù)雜的連續(xù)動(dòng)作輸出時(shí),普遍展現(xiàn)出了比 OpenVLA 更高的任務(wù)成功率和更平滑的物理控制效果。
關(guān)鍵模塊三:高風(fēng)險(xiǎn)人機(jī)交互與“柔性容錯(cuò)”驗(yàn)證
展示了軟體機(jī)器人結(jié)合大模型后d一無二的落地應(yīng)用價(jià)值。
常規(guī)桌面操作動(dòng)態(tài)對比:圖 6 展示了 UR5 在執(zhí)行常規(guī)“把橙子放在盤子里”任務(wù)時(shí)的剛性運(yùn)動(dòng)分鏡。圖 7 則展示了軟體機(jī)器人 Embuddy 在執(zhí)行類似任務(wù)時(shí)的柔性運(yùn)動(dòng)軌跡。
雖然 VLA 能夠驅(qū)動(dòng)兩者準(zhǔn)確完成任務(wù),但在真實(shí)家庭環(huán)境中,剛性軌跡一旦遭遇不可預(yù)見的人類闖入,往往是致命的。
極限人機(jī)交互測試(喂棉花糖):這是本文的安全高光時(shí)刻。如圖 8 所示,團(tuán)隊(duì)讓 VLA 模型控制軟體機(jī)器人執(zhí)行極高風(fēng)險(xiǎn)的“給人類嘴里喂棉花糖”任務(wù)。在執(zhí)行過程中,由于人類頭部的微小晃動(dòng),VLA 模型偶爾會(huì)產(chǎn)生位置預(yù)估偏差。
但關(guān)鍵在于,當(dāng)軟體手臂接觸到人類面部時(shí),它只是發(fā)生了極其安全的彈性形變,并未造成任何機(jī)械撞擊傷害,并在形變后順滑地調(diào)整姿態(tài)完成了投喂任務(wù)。這種“硬件J別的絕對兜底”,徹底釋放了具身大模型在家庭看護(hù)與醫(yī)療輔助領(lǐng)域的潛力。
![]() |
| 機(jī)器人底盤 Disinfection Robot 消毒機(jī)器人 講解機(jī)器人 迎賓機(jī)器人 移動(dòng)機(jī)器人底盤 商用機(jī)器人 智能垃圾站 智能服務(wù)機(jī)器人 大屏機(jī)器人 霧化消毒機(jī)器人 展廳機(jī)器人 服務(wù)機(jī)器人底盤 具身智能教育機(jī)器人 智能配送機(jī)器人 導(dǎo)覽機(jī)器人 |