IEEE Transactions on Robotics?|?三維感知-復(fù)雜操作端到端機(jī)器人學(xué)習(xí)新方法
近日,中國(guó)科學(xué)院深圳先進(jìn)技術(shù)研究院集成所智能仿生研究中心徐升團(tuán)隊(duì)與澳門(mén)大學(xué)楊志新團(tuán)隊(duì)合作,在機(jī)器人學(xué)習(xí)領(lǐng)域取得突破,提出了一種基于三維視覺(jué)融合注意力機(jī)制的端到端多模態(tài)模型——Fusion-Perception-to-Action Transformer(FP2AT)。該算法通過(guò)融合全局與局部體素網(wǎng)格特征,結(jié)合本體感知信息,顯著提升了機(jī)器人在復(fù)雜三維場(chǎng)景中的精細(xì)操作能力。研究成果以“Fusion-Perception-to-Action Transformer: Enhancing Robotic Manipulation With 3-D Visual Fusion Attention and Proprioception”為題,發(fā)表于機(jī)器人領(lǐng)域頂級(jí)期刊IEEE Transactions on Robotics,論文第一作者為澳門(mén)大學(xué)-中國(guó)科學(xué)院深圳先進(jìn)技術(shù)研究院聯(lián)合培養(yǎng)博士生劉楊駿,徐升副研究員和楊志新副教授為共同通訊作者,先進(jìn)院和澳門(mén)大學(xué)為共同第一單位。
研究背景:三維操作亟需“類(lèi)人”感知與規(guī)劃能力
傳統(tǒng)機(jī)器人操作多依賴(lài)二維圖像觀測(cè),難以捕捉三維空間中的物體結(jié)構(gòu)、位置及姿態(tài)關(guān)系,導(dǎo)致精細(xì)化操作任務(wù)(如拔插、旋擰、堆疊)成功率低。雖然體素表示(Voxel Grid)能保留豐富的三維空間信息,但現(xiàn)有方法存在特征利用率低、動(dòng)作預(yù)測(cè)分辨率不足等問(wèn)題。人類(lèi)在完成精細(xì)操作時(shí),可通過(guò)靈活切換全局視野與局部聚焦,結(jié)合手部本體感知?jiǎng)討B(tài)調(diào)整動(dòng)作。受此啟發(fā),研究團(tuán)隊(duì)提出了一種“類(lèi)人”的多模態(tài)感知到動(dòng)作操作框架。
核心創(chuàng)新:基于三維視覺(jué)融合注意力機(jī)制的端到端多模態(tài)模型——Fusion-Perception-to-Action Transformer(FP2AT)(圖2),其中具體包括:
1、設(shè)計(jì)全局-局部視覺(jué)融合注意力(HVFA-3D),模擬人類(lèi)“先全局觀察、再局部聚焦”的視覺(jué)感知模式,增強(qiáng)對(duì)關(guān)鍵操作區(qū)域的關(guān)注(圖1)。
提出三維視覺(jué)互注意力機(jī)制(VMA-3D),實(shí)現(xiàn)跨尺度空間信息雙向交互,提升場(chǎng)景理解能力。
2、集成關(guān)節(jié)力位、末端力/力矩、夾爪狀態(tài)數(shù)據(jù),感知接觸力與運(yùn)動(dòng)狀態(tài),提升機(jī)器人對(duì)周?chē)h(huán)境接觸、本體運(yùn)動(dòng)和協(xié)調(diào)的感知能力。
漸進(jìn)式動(dòng)作預(yù)測(cè)框架,先通過(guò)低分辨率體素全局規(guī)劃,再基于高分辨率局部體素微調(diào)動(dòng)作,保持網(wǎng)絡(luò)端到端特性的同時(shí)提升預(yù)測(cè)精度。
3、提出關(guān)鍵規(guī)劃步數(shù)指標(biāo)(ANKA),用于評(píng)估同類(lèi)算法執(zhí)行效率和規(guī)劃能力。
實(shí)驗(yàn)結(jié)果:成功率提升,效率顯著優(yōu)化
研究團(tuán)隊(duì)在多個(gè)仿真(RLBench)和真實(shí)機(jī)械臂(UR5)任務(wù)上驗(yàn)證了FP2ATs的性能(視頻),平均成功率較體素SOTA方法提升34.4%,較點(diǎn)云SOTA方法提升14.6%。展現(xiàn)出有更好的規(guī)劃能力(如避障等),減少的關(guān)鍵規(guī)劃步數(shù)。
應(yīng)用前景:面向通用任務(wù)的智能機(jī)器人
該工作所提出的FP2AT理論具有強(qiáng)泛化性能,能夠適配不同機(jī)器人操作平臺(tái),通過(guò)多模態(tài)感知與智能操作規(guī)劃,引導(dǎo)機(jī)器人完成多樣化復(fù)雜操作任務(wù)。該工作是團(tuán)隊(duì)在學(xué)習(xí)控制領(lǐng)域的進(jìn)一步拓展,將來(lái)可與具身智能、人形機(jī)器人相結(jié)合,應(yīng)用于家庭服務(wù)、醫(yī)療護(hù)理、工業(yè)生產(chǎn)、化學(xué)試驗(yàn)等各類(lèi)場(chǎng)景。
研究資助
本研究在國(guó)家自然科學(xué)基金面上項(xiàng)目、澳門(mén)科技發(fā)展基金、廣東省、深圳市、澳門(mén)大學(xué)等科技項(xiàng)目資助下完成。
圖1 |?體素重建與“類(lèi)人”視覺(jué)感知
圖2 | Fusion-Perception-to-Action Transformer網(wǎng)絡(luò)架構(gòu)
圖3?|?面向家庭及醫(yī)療服務(wù)的仿真及實(shí)際實(shí)驗(yàn)驗(yàn)證
附件下載: