近期,全球領先的人工智能研究團隊,斯坦福大學李飛飛教授團隊發(fā)布了他們在“空間智能”領域的最新突破性成果——ReKep(Relational Keypoint Constraints,關系關鍵點約束),并通過試驗表明,ReKep在機器人操作、家務自動化等領域具有廣泛的應用潛力。該研究中,團隊使用了奧比中光RGB-D相機Femto Bolt,精準有效捕捉實驗場景的彩色圖像及深度信息,幫助ReKep系統識別和定位場景中的物體及其關鍵點,為機器人動作優(yōu)化和復雜交互提供了關鍵的3D視覺數據支撐。
↑ 點擊播放視頻 ↑
根據研究論文釋義,ReKep是將復雜任務轉換為一系列關系關鍵點的約束優(yōu)化框架,以Python函數的形式表現。這些函數將環(huán)境中的3D關鍵點映射為數值成本,通過捕捉具有任務語義和空間意義的3D關鍵點,賦予機器人自主決策能力,從而高效應對每個任務的核心挑戰(zhàn)?;贔emto Bolt提供的高質量RGB和深度數據,ReKep系統能精準將環(huán)境中的3D關鍵點映射到數值成本來定義這些約束。
深度感知,精準規(guī)劃
Femto Bolt是一款基于微軟先進的ToF(飛行時間)傳感技術設計的RGB-D相機。其中,RGB圖片的生成幫助ReKep系統進行目標檢測和識別,深度圖像可以提供精確的3D信息,讓ReKep系統分辨目標的空間位置和距離關系,二者結合讓ReKep系統充分理解操作場景,生成引導機器人決策與執(zhí)行關鍵點的3D坐標。
此外,3D關鍵點的準確提取對數據質量提出了極高要求,包括深度精度和點云質量。Femto Bolt 能輸出4K高分辨率圖像,有效減少誤識別并提升互動可靠性,這對機器人執(zhí)行精細、復雜的操作至關重要。
超低延時,流暢交互
在實驗研究中,ReKep系統對環(huán)境3D關鍵點的捕捉與傳輸需要具備足夠快的速度,以確保人機交互的流暢性。Femto Bolt 通過每秒30幀的高幀率捕捉深度數據,并集成了多模式的深度圖像、彩色圖像模塊及慣性傳感器,以超低延時實現實時反饋和互動,確保機器人能夠迅速響應ReKep系統的指令。
多機同步,高效協作
李飛飛團隊在不同機器人平臺上搭建系統進行多種任務實驗,包括單臂和雙臂機器人的多階段、雙手協作積極反應性的操作任務。Femto Bolt支持多機同步,通過構建更大范圍內的空間采集,幫助多臺機器人協作完成共同的任務。
在多機同步方面,Femto Bolt使用了通用性更強、功能擴展性更廣的8針GPIO接口,并配備相應的連接器材。同時,Femto Bolt還配備了帶鎖的USB-C接口,確保供電和數據傳輸的同時進行,增強了系統的安全性和穩(wěn)定性。
圖片來自于李飛飛團隊ReKep研究論文
深度融合大視覺模型
更值得關注的是,李飛飛團隊在該研究中結合了視覺模型與視覺-語言模型,當中包括GPT-4o(OpenAI為聊天機器人ChatGPT發(fā)布的語言模型),充分展示了視覺與機器人學習的深層次融合。在不提供特定任務數據或詳細環(huán)境模型的情況下,ReKep系統展示出在非結構化環(huán)境中完成任務的良好泛化能力,具備不同任務策略的適應性。
圖片來自于李飛飛團隊ReKep研究論文
在機器人視覺領域,奧比中光擁有超過8年的商用落地經驗,致力于打造機器人的“眼睛”。今年3月,奧比中光與英偉達攜手,將Femto Bolt先進的iToF技術與NVIDIA Orin AGX的人工智能計算能力結合,搭配Universal Robots UR5機械臂,實現了高精度的物品檢測、揀選和放置,為料倉揀選樹立了新的行業(yè)標桿。在多模態(tài)大模型技術(語音、文本、視覺)與機械臂控制技術的探索中,奧比中光研發(fā)團隊已推出2.0版大模型機械臂,具備精準識別日常物體并理解執(zhí)行指令的能力。未來,奧比中光將繼續(xù)探索機器人視覺傳感技術的應用,助力空間智能系統發(fā)展,進一步推動機器人視覺與人工智能的技術突破,開啟更廣泛的智能化應用場景。
奧比中光相機Femto Bolt及其大模型機械臂點云效果圖
*部分內容來源:
ReKep | Spatio-Temporal Reasoning of Relational Keypoint Constraints for Robotic Manipulation (https://rekep-robot.github.io/)
分享到