注:本報(bào)告由奧比中光×光錐智能聯(lián)合發(fā)布。
1、具身智能時(shí)代重新理解機(jī)器人
1.1 知行合一:“離身”智能逐步向“具身”智能進(jìn)化
具身智能(Embodied AI)是指具備感知和理解環(huán)境的能力,能夠與物理世界進(jìn)行交互,并具備行動(dòng)能力以完成任務(wù)的智能體。相對(duì)而言,"離身"(Disembodiment)是指認(rèn)知與身體分離,比如ChatGPT可以認(rèn)為是一種離身智能,僅能對(duì)語言文本進(jìn)行理解與對(duì)話,無法對(duì)真實(shí)物理世界產(chǎn)生影響。然而,離身智能必定會(huì)向具身智能發(fā)展," 知行合一" 是必然趨勢。
1.2催生了人工智能發(fā)展新浪潮:具身智能機(jī)器人將成為人工智能終極形態(tài)
ChatGPT的出現(xiàn)使得人工智能擁有了"大腦",而高度發(fā)達(dá)的"大腦"對(duì)于身體功能提出了更高要求。因此,在2023年的ITF World半導(dǎo)體大會(huì)上,英偉達(dá)CEO黃仁勛明確表示,具身智能將是人工智能發(fā)展的下一個(gè)浪潮。
智能機(jī)器人是具身智能最直接的落地應(yīng)用,當(dāng)成為具身智能體的時(shí)候,機(jī)器人將迎來飛速發(fā)展。特斯拉 2023 年 3 月的投資者日,馬斯克認(rèn)為未來人類和人形機(jī)器人的比例將不止是 1: 1,未來人形機(jī)器人可能超過人類數(shù)量,達(dá)到100億-200億規(guī)模。
可以說,機(jī)器人將逐步演變?yōu)榫呱碇悄軝C(jī)器人,成為機(jī)器人發(fā)展的終極目標(biāo)、也將成為人工智能的終極形態(tài)。
Tesla 人形機(jī)器人 Tesla Bot「Optimus」原型機(jī)正式登場
2、機(jī)器人的發(fā)展及未來趨勢
2.1機(jī)器人將完成由“不動(dòng)”、到“固定動(dòng)”、再到“自由動(dòng)”的技術(shù)變革,從而進(jìn)入具身智能機(jī)器人時(shí)代
機(jī)器人的發(fā)展大致經(jīng)歷三個(gè)階段:從初級(jí)機(jī)器人的"基本不動(dòng)+重復(fù)執(zhí)行",逐漸發(fā)展到具備"行走+獨(dú)立執(zhí)行"的中級(jí)機(jī)器人,最終發(fā)展為具備"自主行走+自主執(zhí)行"的具身智能機(jī)器人。
在初級(jí)階段,機(jī)器人主要表現(xiàn)為基本靜止?fàn)顟B(tài),僅能執(zhí)行重復(fù)性任務(wù),通常局限于固定的工作場景,缺乏自主性和靈活性。隨著技術(shù)的進(jìn)步,機(jī)器人逐漸具備了行走的能力,并能夠獨(dú)立地執(zhí)行多樣化的任務(wù)。最終,隨著具身智能的興起,機(jī)器人也發(fā)展到具身智能機(jī)器人階段,機(jī)器人不僅具備自主行走能力,還能夠自主學(xué)習(xí)、推理以及執(zhí)行各種任務(wù)。
2.2具身智能機(jī)器人需求達(dá)百億級(jí)規(guī)模,將深入人類生活、工作,極大解放生產(chǎn)力
具身智能機(jī)器人由于其類人化,將逐步替代人類完成由低級(jí)到高級(jí)的工作任務(wù),讓人類從重復(fù)、繁瑣的工作中解放出來,將對(duì)數(shù)億工人以及對(duì)應(yīng)的數(shù)萬億市場產(chǎn)生深遠(yuǎn)的影響。如下圖所示,技術(shù)實(shí)現(xiàn)難度低、勞動(dòng)力密集的職業(yè)及場景會(huì)首先被機(jī)器人取代,比如無人駕駛、建筑工人、農(nóng)業(yè)勞動(dòng)、家政勞動(dòng)等;隨后隨著機(jī)器人技術(shù)進(jìn)步,技術(shù)實(shí)現(xiàn)難度較高、勞動(dòng)力稀疏的部分職業(yè)及場景也將迎來機(jī)器人時(shí)代,比如保險(xiǎn)代理人、教師等。
圖表來自報(bào)告:《人工智能機(jī)器人開啟第四次科技革命》(由勢乘資本和光錐智能聯(lián)合發(fā)布)
此外,在具體應(yīng)用場景中,數(shù)十種傳統(tǒng)機(jī)器人也將向具身智能機(jī)器人升級(jí)迭代,例如工業(yè)搬運(yùn)、拆垛機(jī)器人,物流分揀、包裝、協(xié)作機(jī)器人,農(nóng)業(yè)采摘、分選機(jī)器人,醫(yī)療康復(fù)機(jī)器人,養(yǎng)老助殘機(jī)器人,家用服務(wù)機(jī)器人,公共服務(wù)機(jī)器人,教育機(jī)器人以及人形機(jī)器人等。
具身智能機(jī)器人可以更高效、準(zhǔn)確地完成任務(wù),以節(jié)約時(shí)間和資源,所引領(lǐng)的機(jī)器人技術(shù)革命將帶來巨大的技術(shù)紅利,極大地解放生產(chǎn)力,同時(shí)也會(huì)創(chuàng)造新的經(jīng)濟(jì)增長點(diǎn),推動(dòng)社會(huì)發(fā)展與進(jìn)步。
2.3具身智能機(jī)器人將沿“大腦先行、感知突破、身體完善”的方向迭代發(fā)展,當(dāng)下迎來機(jī)器人視覺歷史發(fā)展機(jī)遇
類似ChatGPT的通用大模型賦予具身智能機(jī)器人像人類一樣的思考、推理與表達(dá)能力,但僅有"大腦"是遠(yuǎn)遠(yuǎn)不夠的,還需要像人類一樣具備三大核心能力:用于思考和推理的“大腦”、用于感知世界的“感覺”、用于與世界交互的“身體和手腳”。具身智能機(jī)器人的發(fā)展也一定是由"大腦"帶動(dòng),逐步向“眼睛”等視覺感知體、“手腳”等運(yùn)動(dòng)執(zhí)行體不斷升級(jí)迭代的過程,即沿著“大腦先行、感知突破、身體完善”的方向迭代發(fā)展。
大腦方面,GPT、數(shù)據(jù)、算力等技術(shù)的發(fā)展給大腦提供了極佳的土壤,已高度智能化。谷歌和微軟的AI團(tuán)隊(duì)走在前列,2023年3月,谷歌和柏林工業(yè)大學(xué)的團(tuán)隊(duì)重磅推出了史上最大的視覺-語言模型——PaLM-E(Pathways Language Model with Embodied),參數(shù)量高達(dá)5620億(GPT-3的參數(shù)量為1750億)。該模型不僅可以理解圖像,還能理解、生成語言,可以執(zhí)行各種復(fù)雜的機(jī)器人指令而無需重新訓(xùn)練。谷歌研究人員計(jì)劃探索PaLM-E在現(xiàn)實(shí)世界場景中的更多應(yīng)用,例如家庭自動(dòng)化或工業(yè)機(jī)器人。微軟團(tuán)隊(duì)也在探索如何將OpenAI研發(fā)的ChatGPT擴(kuò)展到機(jī)器人領(lǐng)域。
目前,已經(jīng)有更為輕量化的大模型能夠獨(dú)立運(yùn)行在邊緣端(如機(jī)器人、手機(jī))上,為其提供"大腦"功能。這些大模型在某些專業(yè)領(lǐng)域通過專門訓(xùn)練,可以接近人類的智能水平,擁有百億級(jí)甚至更低的參數(shù),使得它們可以在邊緣設(shè)備和終端上運(yùn)行,不依賴云端計(jì)算能力,從而讓終端設(shè)備也能具備智能決策的能力。比如目前已經(jīng)可以在手機(jī)上運(yùn)行的大模型有:MobileBERT(Bidirectional Encoder Representations from Transformers),TinyBERT,MobileNet等。
緊隨其后的,將是人工智能“眼睛”的爆發(fā)式發(fā)展。
3、機(jī)器人視覺的發(fā)展及未來趨勢
3.1通用大模型往多模態(tài)大模型方向演進(jìn),機(jī)器視覺向機(jī)器人視覺進(jìn)化
ChatGPT通用大模型僅支持自然語言處理,然而機(jī)器人大腦所要處理的信息是多模態(tài)的,例如文本、視覺圖像、語音等等,因此大模型也正逐步往多模態(tài)大模型方向演進(jìn)。多模態(tài)大模型能夠?qū)⒉煌B(tài)的信息融合在一起,實(shí)現(xiàn)跨模態(tài)的理解、生成和推理,與人類大腦的功能最為接近。近期,Meta推出了多模態(tài)大模型ImageBind,能夠處理文本、音頻、3D視覺、溫度、IMU信息;華為也將在2023年7月推出 “盤古Chat” 多模態(tài)大模型。
隨著多模態(tài)大模型的發(fā)展,當(dāng)“大腦”具備對(duì)視覺信息處理、推理等能力,對(duì)“眼睛”的需求便呼之欲出,一方面視覺信息是多模態(tài)信息的必要組成部分,二是與人類類比來看,視覺信息在所有感知信息中占比超過70%,也將是人工智能感知世界最重要的信息源。傳統(tǒng)機(jī)器視覺普遍是2D的模塊化視覺設(shè)備,應(yīng)用在相對(duì)固定的環(huán)境,而具身智能機(jī)器人所需要的機(jī)器人視覺則是類人眼的小型化、3D的嵌入式器件,且面向的是復(fù)雜變化的環(huán)境,因此在產(chǎn)品形態(tài)以及技術(shù)實(shí)現(xiàn)上都與傳統(tǒng)機(jī)器視覺存在巨大差異,機(jī)器視覺將向機(jī)器人視覺不斷進(jìn)化。
3.2產(chǎn)品形態(tài)上,機(jī)器人視覺相比傳統(tǒng)機(jī)器視覺更加 3D化、高度集成化、場景復(fù)雜化
(1) 2D視覺向3D視覺進(jìn)化,3D視覺具備毫米級(jí)甚至更高精度的視覺能力,可以對(duì)真實(shí)物體場景進(jìn)行高精度掃描與還原。傳統(tǒng)2D視覺只能應(yīng)用在“可控規(guī)范”的環(huán)境中,比如工業(yè)產(chǎn)線,而具身智能機(jī)器人所面對(duì)的是不可控規(guī)范的場景,2D視覺無法滿足。
(2) 模塊化向高度集成嵌入式進(jìn)化,傳統(tǒng)機(jī)器人例如部分工業(yè)機(jī)器人所配備的視覺設(shè)備大都是模塊化的設(shè)備,普遍包括光源、鏡頭、相機(jī)、圖像采集卡、機(jī)器視覺算法、應(yīng)用軟件等模塊,其中光源跟相機(jī)分開,相機(jī)跟鏡頭分開,相機(jī)跟圖像采集卡分開,各個(gè)部件體積龐大,導(dǎo)致整體體積大、成本高,無法應(yīng)用于需要廣泛普及的具身智能機(jī)器人中。
(3) 單一場景到復(fù)雜場景(變化場景)進(jìn)化,具身智能機(jī)器人所面向的是未知的復(fù)雜場景或變化場景,這就導(dǎo)致單一視覺傳感器無法滿足需求,另外為了應(yīng)付變化場景,要求具備極高魯棒性的智能視覺算法。
因此,具身智能機(jī)器人所需要的“眼睛”,一定是3D的、高度集成的、適應(yīng)復(fù)雜變化場景的智能化“眼睛”。
3.3技術(shù)實(shí)現(xiàn)上,機(jī)器人視覺相比傳統(tǒng)機(jī)器視覺更注重多專業(yè)融合、底層元器件定制與集成、以及高度依賴智能視覺算法
(1) 多專業(yè)、跨學(xué)科、高精尖。3D視覺相對(duì)2D視覺雖然多了一個(gè)維度的信息,但要付出的是技術(shù)代價(jià)是,全新的系統(tǒng)架構(gòu)設(shè)計(jì)、被精密編碼的光學(xué)發(fā)射器、顛覆性的芯片像素架構(gòu)設(shè)計(jì)、高穩(wěn)定性的光電結(jié)構(gòu)設(shè)計(jì)、高精密的制造產(chǎn)線,需要從系統(tǒng)、芯片、光學(xué)、結(jié)構(gòu)、算法多專業(yè)進(jìn)行逐一突破后進(jìn)行高度融合。
(2) 定制化、集成化。設(shè)計(jì)出符合具身智能機(jī)器人的視覺系統(tǒng),需要對(duì)所有核心元器件進(jìn)行特殊定制,包括機(jī)器人視覺專用芯片,要求企業(yè)具備底層創(chuàng)新能力,并進(jìn)行高度集成,才能在性能、成本、體積上實(shí)現(xiàn)最優(yōu),以滿足具身智能機(jī)器人需要。
(3) 高度依賴智能視覺算法。面對(duì)復(fù)雜變化場景,比如高溫環(huán)境下需要適應(yīng)溫度變化、在光照變化場景下需要穩(wěn)定輸出數(shù)據(jù)、多視覺傳感器之間需要高度同步與配準(zhǔn)、在遭遇打擊跌落時(shí)可以及時(shí)恢復(fù)視覺能力,這里面將運(yùn)用多種智能視覺算法,比如HDR、AF、復(fù)雜材質(zhì)成像、溫度補(bǔ)償算法、光照自適應(yīng)算法、同步配準(zhǔn)算法、抗變形算法等等,這些智能視覺算法都是傳統(tǒng)機(jī)器人視覺所不涉及的。
因此,隨著機(jī)器人向具身智能機(jī)器人發(fā)展,機(jī)器人視覺也朝著3D、高度集成、適應(yīng)復(fù)雜變化場景的方向進(jìn)化,對(duì)相關(guān)研發(fā)機(jī)構(gòu)也提出了全新的能力訴求,多專業(yè)融合、底層創(chuàng)新能力、智能視覺算法將成為企業(yè)的核心技術(shù)競爭力。
4、奧比中光的機(jī)器人視覺技術(shù)布局、產(chǎn)品與應(yīng)用
奧比中光經(jīng)過10多年的發(fā)展,致力于讓所有終端看懂世界,高度契合當(dāng)下具身智能機(jī)器人視覺發(fā)展需要,面向具身智能機(jī)器人,已布局了全方位的機(jī)器人視覺技術(shù)與產(chǎn)品方案。
4.1全球率先完成具身智能機(jī)器人視覺的核心技術(shù)布局
針對(duì)具身智能機(jī)器人視覺,奧比中光著眼于中長期技術(shù)發(fā)展與需求進(jìn)行了全方位的技術(shù)路線布局以及技術(shù)能力布局,其中技術(shù)路線覆蓋單目結(jié)構(gòu)光、雙目視覺、TOF、LIDAR,技術(shù)能力覆蓋機(jī)器人視覺芯片、智能視覺算法、模組及方案以及規(guī)?;慨a(chǎn)等能力。
4.2 已推出面向具身智能機(jī)器人所需要的多種系統(tǒng)布局產(chǎn)品
基于機(jī)器人本身算力差別,布局了兩種系統(tǒng)方案,一種是針對(duì)機(jī)器人本身具備較高計(jì)算能力的,僅提供低成本的嵌入式視覺傳感器,傳感器本身不帶智能視覺算法;二是自帶邊緣算力的智能視覺傳感器,傳感器可自行執(zhí)行算法及軟件,可以應(yīng)用在本體不具備額外算力的機(jī)器人上。
4.3全球范圍內(nèi)成功落地多種機(jī)器人視覺應(yīng)用
奧比中光在過去的十年里,一直致力于給機(jī)器人提供智能化眼睛,推動(dòng)機(jī)器人視覺發(fā)展,相應(yīng)視覺產(chǎn)品已經(jīng)在商用清潔、配送、迎賓、教育、倉儲(chǔ)物流等多個(gè)領(lǐng)域成功落地,服務(wù)于各種類型的機(jī)器人,包括輪式機(jī)器人、機(jī)械臂、多足機(jī)器人以及人形機(jī)器人。
1) 在商用清潔領(lǐng)域,搭載奧比中光DaBai雙目結(jié)構(gòu)光相機(jī)的高仙清潔機(jī)器人可以自動(dòng)識(shí)別、清理垃圾,并在復(fù)雜的戶外環(huán)境中自動(dòng)避障,極大地提升了清潔效率。
2) 在送餐領(lǐng)域,搭載奧比中光DaBai Pro雙目結(jié)構(gòu)光相機(jī)的普渡送餐機(jī)器人可實(shí)現(xiàn)在餐廳復(fù)雜環(huán)境下遇障即停,隨轉(zhuǎn)即走,做到3D全向避障。
3) 在工業(yè)領(lǐng)域,搭載奧比中光DaBai DCW雙目結(jié)構(gòu)光相機(jī)和MS500單線激光雷達(dá)的AMR可實(shí)現(xiàn)在智慧工廠環(huán)境下的貨物自動(dòng)轉(zhuǎn)運(yùn),極大提高生產(chǎn)效率。
4) CES2023,由奧比中光和微軟、英偉達(dá)聯(lián)合研發(fā)制造的深度相機(jī)Femto Mega首次亮相,該相機(jī)融合微軟第一代深度相機(jī)Azure Kinect的全部性能,并集成英偉達(dá)Jetson Nano深度算力平臺(tái),成為物流、機(jī)器人、制造、工業(yè)、零售、醫(yī)療保健和健身解決方案等領(lǐng)域3D視覺開發(fā)的理想選擇。
5) COMPUTEX 2023(臺(tái)北國際電腦展)正式舉辦。NVIDIA創(chuàng)始人兼CEO黃仁勛在 COMPUTEX 2023大會(huì)主題演講中介紹了NVIDIA全球產(chǎn)業(yè)數(shù)字化生態(tài)布局,作為其合作伙伴,奧比中光正式宣布將Femto Mega和其它3D相機(jī)集成到NVIDIA Omniverse生態(tài)開發(fā)平臺(tái)中。NVIDIA Omniverse是一個(gè)開放的開發(fā)平臺(tái),用于構(gòu)建和運(yùn)行元宇宙應(yīng)用。在奧比中光3D相機(jī)集成到Omniverse后,使用NVIDIA Isaac Sim(一種機(jī)器人模擬工具包)的客戶就能夠快速設(shè)計(jì)其3D視覺系統(tǒng),提高AI系統(tǒng)設(shè)計(jì)和測試的真實(shí)性和精確性。
結(jié)語
毋庸置疑,具身智能機(jī)器人將開啟全新機(jī)器人革命、引領(lǐng)新一代人工智能浪潮,通用大模型向多模態(tài)大模型發(fā)展,機(jī)器視覺向機(jī)器人視覺進(jìn)化,站在新一輪科技革命歷史機(jī)遇上,奧比中光將通過核心技術(shù)打造機(jī)器人視覺產(chǎn)品,通過產(chǎn)品的推廣應(yīng)用助力具身智能機(jī)器人視覺技術(shù)進(jìn)步與行業(yè)發(fā)展。
分享到