奧比中光聯(lián)合光錐智能發(fā)布深度研報(bào)：具身智能帶動(dòng)百億級(jí)機(jī)器人視覺產(chǎn)業(yè)爆發(fā)

2023.06.20
orbbec

注：本報(bào)告由奧比中光×光錐智能聯(lián)合發(fā)布。

1、具身智能時(shí)代重新理解機(jī)器人

1.1 知行合一：“離身”智能逐步向“具身”智能進(jìn)化

具身智能（Embodied AI）是指具備感知和理解環(huán)境的能力，能夠與物理世界進(jìn)行交互，并具備行動(dòng)能力以完成任務(wù)的智能體。相對(duì)而言，"離身"（Disembodiment）是指認(rèn)知與身體分離，比如ChatGPT可以認(rèn)為是一種離身智能，僅能對(duì)語言文本進(jìn)行理解與對(duì)話，無法對(duì)真實(shí)物理世界產(chǎn)生影響。然而，離身智能必定會(huì)向具身智能發(fā)展，" 知行合一" 是必然趨勢。

1.2催生了人工智能發(fā)展新浪潮：具身智能機(jī)器人將成為人工智能終極形態(tài)

ChatGPT的出現(xiàn)使得人工智能擁有了"大腦"，而高度發(fā)達(dá)的"大腦"對(duì)于身體功能提出了更高要求。因此，在2023年的ITF World半導(dǎo)體大會(huì)上，英偉達(dá)CEO黃仁勛明確表示，具身智能將是人工智能發(fā)展的下一個(gè)浪潮。

智能機(jī)器人是具身智能最直接的落地應(yīng)用，當(dāng)成為具身智能體的時(shí)候，機(jī)器人將迎來飛速發(fā)展。特斯拉 2023 年 3 月的投資者日，馬斯克認(rèn)為未來人類和人形機(jī)器人的比例將不止是 1： 1，未來人形機(jī)器人可能超過人類數(shù)量，達(dá)到100億-200億規(guī)模。

可以說，機(jī)器人將逐步演變?yōu)榫呱碇悄軝C(jī)器人，成為機(jī)器人發(fā)展的終極目標(biāo)、也將成為人工智能的終極形態(tài)。

Tesla 人形機(jī)器人 Tesla Bot「Optimus」原型機(jī)正式登場

2、機(jī)器人的發(fā)展及未來趨勢

2.1機(jī)器人將完成由“不動(dòng)”、到“固定動(dòng)”、再到“自由動(dòng)”的技術(shù)變革，從而進(jìn)入具身智能機(jī)器人時(shí)代

機(jī)器人的發(fā)展大致經(jīng)歷三個(gè)階段：從初級(jí)機(jī)器人的"基本不動(dòng)+重復(fù)執(zhí)行"，逐漸發(fā)展到具備"行走+獨(dú)立執(zhí)行"的中級(jí)機(jī)器人，最終發(fā)展為具備"自主行走+自主執(zhí)行"的具身智能機(jī)器人。

在初級(jí)階段，機(jī)器人主要表現(xiàn)為基本靜止?fàn)顟B(tài)，僅能執(zhí)行重復(fù)性任務(wù)，通常局限于固定的工作場景，缺乏自主性和靈活性。隨著技術(shù)的進(jìn)步，機(jī)器人逐漸具備了行走的能力，并能夠獨(dú)立地執(zhí)行多樣化的任務(wù)。最終，隨著具身智能的興起，機(jī)器人也發(fā)展到具身智能機(jī)器人階段，機(jī)器人不僅具備自主行走能力，還能夠自主學(xué)習(xí)、推理以及執(zhí)行各種任務(wù)。

2.2具身智能機(jī)器人需求達(dá)百億級(jí)規(guī)模，將深入人類生活、工作，極大解放生產(chǎn)力

具身智能機(jī)器人由于其類人化，將逐步替代人類完成由低級(jí)到高級(jí)的工作任務(wù)，讓人類從重復(fù)、繁瑣的工作中解放出來，將對(duì)數(shù)億工人以及對(duì)應(yīng)的數(shù)萬億市場產(chǎn)生深遠(yuǎn)的影響。如下圖所示，技術(shù)實(shí)現(xiàn)難度低、勞動(dòng)力密集的職業(yè)及場景會(huì)首先被機(jī)器人取代，比如無人駕駛、建筑工人、農(nóng)業(yè)勞動(dòng)、家政勞動(dòng)等；隨后隨著機(jī)器人技術(shù)進(jìn)步，技術(shù)實(shí)現(xiàn)難度較高、勞動(dòng)力稀疏的部分職業(yè)及場景也將迎來機(jī)器人時(shí)代，比如保險(xiǎn)代理人、教師等。

圖表來自報(bào)告：《人工智能機(jī)器人開啟第四次科技革命》（由勢乘資本和光錐智能聯(lián)合發(fā)布）

此外，在具體應(yīng)用場景中，數(shù)十種傳統(tǒng)機(jī)器人也將向具身智能機(jī)器人升級(jí)迭代，例如工業(yè)搬運(yùn)、拆垛機(jī)器人，物流分揀、包裝、協(xié)作機(jī)器人，農(nóng)業(yè)采摘、分選機(jī)器人，醫(yī)療康復(fù)機(jī)器人，養(yǎng)老助殘機(jī)器人，家用服務(wù)機(jī)器人，公共服務(wù)機(jī)器人，教育機(jī)器人以及人形機(jī)器人等。

具身智能機(jī)器人可以更高效、準(zhǔn)確地完成任務(wù)，以節(jié)約時(shí)間和資源，所引領(lǐng)的機(jī)器人技術(shù)革命將帶來巨大的技術(shù)紅利，極大地解放生產(chǎn)力，同時(shí)也會(huì)創(chuàng)造新的經(jīng)濟(jì)增長點(diǎn)，推動(dòng)社會(huì)發(fā)展與進(jìn)步。

2.3具身智能機(jī)器人將沿“大腦先行、感知突破、身體完善”的方向迭代發(fā)展，當(dāng)下迎來機(jī)器人視覺歷史發(fā)展機(jī)遇

類似ChatGPT的通用大模型賦予具身智能機(jī)器人像人類一樣的思考、推理與表達(dá)能力，但僅有"大腦"是遠(yuǎn)遠(yuǎn)不夠的，還需要像人類一樣具備三大核心能力：用于思考和推理的“大腦”、用于感知世界的“感覺”、用于與世界交互的“身體和手腳”。具身智能機(jī)器人的發(fā)展也一定是由"大腦"帶動(dòng)，逐步向“眼睛”等視覺感知體、“手腳”等運(yùn)動(dòng)執(zhí)行體不斷升級(jí)迭代的過程，即沿著“大腦先行、感知突破、身體完善”的方向迭代發(fā)展。

大腦方面，GPT、數(shù)據(jù)、算力等技術(shù)的發(fā)展給大腦提供了極佳的土壤，已高度智能化。谷歌和微軟的AI團(tuán)隊(duì)走在前列，2023年3月，谷歌和柏林工業(yè)大學(xué)的團(tuán)隊(duì)重磅推出了史上最大的視覺-語言模型——PaLM-E（Pathways Language Model with Embodied），參數(shù)量高達(dá)5620億（GPT-3的參數(shù)量為1750億）。該模型不僅可以理解圖像，還能理解、生成語言，可以執(zhí)行各種復(fù)雜的機(jī)器人指令而無需重新訓(xùn)練。谷歌研究人員計(jì)劃探索PaLM-E在現(xiàn)實(shí)世界場景中的更多應(yīng)用，例如家庭自動(dòng)化或工業(yè)機(jī)器人。微軟團(tuán)隊(duì)也在探索如何將OpenAI研發(fā)的ChatGPT擴(kuò)展到機(jī)器人領(lǐng)域。

目前，已經(jīng)有更為輕量化的大模型能夠獨(dú)立運(yùn)行在邊緣端（如機(jī)器人、手機(jī)）上，為其提供"大腦"功能。這些大模型在某些專業(yè)領(lǐng)域通過專門訓(xùn)練，可以接近人類的智能水平，擁有百億級(jí)甚至更低的參數(shù)，使得它們可以在邊緣設(shè)備和終端上運(yùn)行，不依賴云端計(jì)算能力，從而讓終端設(shè)備也能具備智能決策的能力。比如目前已經(jīng)可以在手機(jī)上運(yùn)行的大模型有：MobileBERT（Bidirectional Encoder Representations from Transformers），TinyBERT，MobileNet等。

緊隨其后的，將是人工智能“眼睛”的爆發(fā)式發(fā)展。

3、機(jī)器人視覺的發(fā)展及未來趨勢

3.1通用大模型往多模態(tài)大模型方向演進(jìn)，機(jī)器視覺向機(jī)器人視覺進(jìn)化

ChatGPT通用大模型僅支持自然語言處理，然而機(jī)器人大腦所要處理的信息是多模態(tài)的，例如文本、視覺圖像、語音等等，因此大模型也正逐步往多模態(tài)大模型方向演進(jìn)。多模態(tài)大模型能夠?qū)⒉煌B(tài)的信息融合在一起，實(shí)現(xiàn)跨模態(tài)的理解、生成和推理，與人類大腦的功能最為接近。近期，Meta推出了多模態(tài)大模型ImageBind，能夠處理文本、音頻、3D視覺、溫度、IMU信息；華為也將在2023年7月推出 “盤古Chat” 多模態(tài)大模型。

隨著多模態(tài)大模型的發(fā)展，當(dāng)“大腦”具備對(duì)視覺信息處理、推理等能力，對(duì)“眼睛”的需求便呼之欲出，一方面視覺信息是多模態(tài)信息的必要組成部分，二是與人類類比來看，視覺信息在所有感知信息中占比超過70%，也將是人工智能感知世界最重要的信息源。傳統(tǒng)機(jī)器視覺普遍是2D的模塊化視覺設(shè)備，應(yīng)用在相對(duì)固定的環(huán)境，而具身智能機(jī)器人所需要的機(jī)器人視覺則是類人眼的小型化、3D的嵌入式器件，且面向的是復(fù)雜變化的環(huán)境，因此在產(chǎn)品形態(tài)以及技術(shù)實(shí)現(xiàn)上都與傳統(tǒng)機(jī)器視覺存在巨大差異，機(jī)器視覺將向機(jī)器人視覺不斷進(jìn)化。

3.2產(chǎn)品形態(tài)上，機(jī)器人視覺相比傳統(tǒng)機(jī)器視覺更加 3D化、高度集成化、場景復(fù)雜化

(1) 2D視覺向3D視覺進(jìn)化，3D視覺具備毫米級(jí)甚至更高精度的視覺能力，可以對(duì)真實(shí)物體場景進(jìn)行高精度掃描與還原。傳統(tǒng)2D視覺只能應(yīng)用在“可控規(guī)范”的環(huán)境中，比如工業(yè)產(chǎn)線，而具身智能機(jī)器人所面對(duì)的是不可控規(guī)范的場景，2D視覺無法滿足。

(2) 模塊化向高度集成嵌入式進(jìn)化，傳統(tǒng)機(jī)器人例如部分工業(yè)機(jī)器人所配備的視覺設(shè)備大都是模塊化的設(shè)備，普遍包括光源、鏡頭、相機(jī)、圖像采集卡、機(jī)器視覺算法、應(yīng)用軟件等模塊，其中光源跟相機(jī)分開，相機(jī)跟鏡頭分開，相機(jī)跟圖像采集卡分開，各個(gè)部件體積龐大，導(dǎo)致整體體積大、成本高，無法應(yīng)用于需要廣泛普及的具身智能機(jī)器人中。

(3) 單一場景到復(fù)雜場景（變化場景）進(jìn)化，具身智能機(jī)器人所面向的是未知的復(fù)雜場景或變化場景，這就導(dǎo)致單一視覺傳感器無法滿足需求，另外為了應(yīng)付變化場景，要求具備極高魯棒性的智能視覺算法。

因此，具身智能機(jī)器人所需要的“眼睛”，一定是3D的、高度集成的、適應(yīng)復(fù)雜變化場景的智能化“眼睛”。

3.3技術(shù)實(shí)現(xiàn)上，機(jī)器人視覺相比傳統(tǒng)機(jī)器視覺更注重多專業(yè)融合、底層元器件定制與集成、以及高度依賴智能視覺算法

(1) 多專業(yè)、跨學(xué)科、高精尖。3D視覺相對(duì)2D視覺雖然多了一個(gè)維度的信息，但要付出的是技術(shù)代價(jià)是，全新的系統(tǒng)架構(gòu)設(shè)計(jì)、被精密編碼的光學(xué)發(fā)射器、顛覆性的芯片像素架構(gòu)設(shè)計(jì)、高穩(wěn)定性的光電結(jié)構(gòu)設(shè)計(jì)、高精密的制造產(chǎn)線，需要從系統(tǒng)、芯片、光學(xué)、結(jié)構(gòu)、算法多專業(yè)進(jìn)行逐一突破后進(jìn)行高度融合。

(2) 定制化、集成化。設(shè)計(jì)出符合具身智能機(jī)器人的視覺系統(tǒng)，需要對(duì)所有核心元器件進(jìn)行特殊定制，包括機(jī)器人視覺專用芯片，要求企業(yè)具備底層創(chuàng)新能力，并進(jìn)行高度集成，才能在性能、成本、體積上實(shí)現(xiàn)最優(yōu)，以滿足具身智能機(jī)器人需要。

(3) 高度依賴智能視覺算法。面對(duì)復(fù)雜變化場景，比如高溫環(huán)境下需要適應(yīng)溫度變化、在光照變化場景下需要穩(wěn)定輸出數(shù)據(jù)、多視覺傳感器之間需要高度同步與配準(zhǔn)、在遭遇打擊跌落時(shí)可以及時(shí)恢復(fù)視覺能力，這里面將運(yùn)用多種智能視覺算法，比如HDR、AF、復(fù)雜材質(zhì)成像、溫度補(bǔ)償算法、光照自適應(yīng)算法、同步配準(zhǔn)算法、抗變形算法等等，這些智能視覺算法都是傳統(tǒng)機(jī)器人視覺所不涉及的。

因此，隨著機(jī)器人向具身智能機(jī)器人發(fā)展，機(jī)器人視覺也朝著3D、高度集成、適應(yīng)復(fù)雜變化場景的方向進(jìn)化，對(duì)相關(guān)研發(fā)機(jī)構(gòu)也提出了全新的能力訴求，多專業(yè)融合、底層創(chuàng)新能力、智能視覺算法將成為企業(yè)的核心技術(shù)競爭力。

4、奧比中光的機(jī)器人視覺技術(shù)布局、產(chǎn)品與應(yīng)用

奧比中光經(jīng)過10多年的發(fā)展，致力于讓所有終端看懂世界，高度契合當(dāng)下具身智能機(jī)器人視覺發(fā)展需要，面向具身智能機(jī)器人，已布局了全方位的機(jī)器人視覺技術(shù)與產(chǎn)品方案。

4.1全球率先完成具身智能機(jī)器人視覺的核心技術(shù)布局

針對(duì)具身智能機(jī)器人視覺，奧比中光著眼于中長期技術(shù)發(fā)展與需求進(jìn)行了全方位的技術(shù)路線布局以及技術(shù)能力布局，其中技術(shù)路線覆蓋單目結(jié)構(gòu)光、雙目視覺、TOF、LIDAR，技術(shù)能力覆蓋機(jī)器人視覺芯片、智能視覺算法、模組及方案以及規(guī)?；慨a(chǎn)等能力。

4.2 已推出面向具身智能機(jī)器人所需要的多種系統(tǒng)布局產(chǎn)品

基于機(jī)器人本身算力差別，布局了兩種系統(tǒng)方案，一種是針對(duì)機(jī)器人本身具備較高計(jì)算能力的，僅提供低成本的嵌入式視覺傳感器，傳感器本身不帶智能視覺算法；二是自帶邊緣算力的智能視覺傳感器，傳感器可自行執(zhí)行算法及軟件，可以應(yīng)用在本體不具備額外算力的機(jī)器人上。

4.3全球范圍內(nèi)成功落地多種機(jī)器人視覺應(yīng)用

奧比中光在過去的十年里，一直致力于給機(jī)器人提供智能化眼睛，推動(dòng)機(jī)器人視覺發(fā)展，相應(yīng)視覺產(chǎn)品已經(jīng)在商用清潔、配送、迎賓、教育、倉儲(chǔ)物流等多個(gè)領(lǐng)域成功落地，服務(wù)于各種類型的機(jī)器人，包括輪式機(jī)器人、機(jī)械臂、多足機(jī)器人以及人形機(jī)器人。

1) 在商用清潔領(lǐng)域，搭載奧比中光DaBai雙目結(jié)構(gòu)光相機(jī)的高仙清潔機(jī)器人可以自動(dòng)識(shí)別、清理垃圾，并在復(fù)雜的戶外環(huán)境中自動(dòng)避障，極大地提升了清潔效率。

2) 在送餐領(lǐng)域，搭載奧比中光DaBai Pro雙目結(jié)構(gòu)光相機(jī)的普渡送餐機(jī)器人可實(shí)現(xiàn)在餐廳復(fù)雜環(huán)境下遇障即停，隨轉(zhuǎn)即走，做到3D全向避障。

3) 在工業(yè)領(lǐng)域，搭載奧比中光DaBai DCW雙目結(jié)構(gòu)光相機(jī)和MS500單線激光雷達(dá)的AMR可實(shí)現(xiàn)在智慧工廠環(huán)境下的貨物自動(dòng)轉(zhuǎn)運(yùn)，極大提高生產(chǎn)效率。

4) CES2023，由奧比中光和微軟、英偉達(dá)聯(lián)合研發(fā)制造的深度相機(jī)Femto Mega首次亮相，該相機(jī)融合微軟第一代深度相機(jī)Azure Kinect的全部性能，并集成英偉達(dá)Jetson Nano深度算力平臺(tái)，成為物流、機(jī)器人、制造、工業(yè)、零售、醫(yī)療保健和健身解決方案等領(lǐng)域3D視覺開發(fā)的理想選擇。

5) COMPUTEX 2023(臺(tái)北國際電腦展)正式舉辦。NVIDIA創(chuàng)始人兼CEO黃仁勛在 COMPUTEX 2023大會(huì)主題演講中介紹了NVIDIA全球產(chǎn)業(yè)數(shù)字化生態(tài)布局,作為其合作伙伴,奧比中光正式宣布將Femto Mega和其它3D相機(jī)集成到NVIDIA Omniverse生態(tài)開發(fā)平臺(tái)中。NVIDIA Omniverse是一個(gè)開放的開發(fā)平臺(tái),用于構(gòu)建和運(yùn)行元宇宙應(yīng)用。在奧比中光3D相機(jī)集成到Omniverse后,使用NVIDIA Isaac Sim(一種機(jī)器人模擬工具包)的客戶就能夠快速設(shè)計(jì)其3D視覺系統(tǒng),提高AI系統(tǒng)設(shè)計(jì)和測試的真實(shí)性和精確性。

結(jié)語

毋庸置疑，具身智能機(jī)器人將開啟全新機(jī)器人革命、引領(lǐng)新一代人工智能浪潮，通用大模型向多模態(tài)大模型發(fā)展，機(jī)器視覺向機(jī)器人視覺進(jìn)化，站在新一輪科技革命歷史機(jī)遇上，奧比中光將通過核心技術(shù)打造機(jī)器人視覺產(chǎn)品，通過產(chǎn)品的推廣應(yīng)用助力具身智能機(jī)器人視覺技術(shù)進(jìn)步與行業(yè)發(fā)展。

上一條 AI 2.0時(shí)代，再看消費(fèi)物聯(lián)網(wǎng)十年下一條奧比中光發(fā)布Gemini 2 L與Astra 2兩款高標(biāo)準(zhǔn)結(jié)構(gòu)光3D相機(jī)

奧比中光聯(lián)合光錐智能發(fā)布深度研報(bào)：具身智能帶動(dòng)百億級(jí)機(jī)器人視覺產(chǎn)業(yè)爆發(fā)

案例 | 英國公司Enliteon攜手奧比中光打造智慧城市的深度之“眼”

2024.12.19

了解更多

集成NVIDIA Isaac Perceptor，奧比中光在ROSCon 2024發(fā)布即開即用AMR解決方案

2024.11.04

了解更多

奧比中光3D相機(jī)正式支持AMD Kria KR260機(jī)器人入門套件

2024.11.04

了解更多

新成員公布，豪華國際支持陣容有：NVIDIA、AMD、UR、研華......

2024.10.22

了解更多

奧比中光推出GMSL2/FAKRA雙目3D相機(jī)，為機(jī)器人視覺提供更穩(wěn)定連接方案

2024.10.21

了解更多

奧比中光攜手研華，為AMR開發(fā)者提供“開箱即用”的AI視覺解決方案

2024.10.21

了解更多

奧比中光聯(lián)合光錐智能發(fā)布深度研報(bào)：具身智能帶動(dòng)百億級(jí)機(jī)器人視覺產(chǎn)業(yè)爆發(fā)

推薦閱讀

案例 | 英國公司Enliteon攜手奧比中光打造智慧城市的深度之“眼”

2024.12.19

了解更多

集成NVIDIA Isaac Perceptor，奧比中光在ROSCon 2024發(fā)布即開即用AMR解決方案

2024.11.04

了解更多

奧比中光3D相機(jī)正式支持AMD Kria KR260機(jī)器人入門套件

2024.11.04

了解更多

新成員公布，豪華國際支持陣容有：NVIDIA、AMD、UR、研華......

2024.10.22

了解更多

奧比中光推出GMSL2/FAKRA雙目3D相機(jī)，為機(jī)器人視覺提供更穩(wěn)定連接方案

2024.10.21

了解更多

奧比中光攜手研華，為AMR開發(fā)者提供“開箱即用”的AI視覺解決方案

2024.10.21

了解更多

集成NVIDIA Isaac Perceptor，奧比中光在ROSCon 2024發(fā)布即開即用AMR解決方案

新成員公布，豪華國際支持陣容有：NVIDIA、AMD、UR、研華......

奧比中光推出GMSL2/FAKRA雙目3D相機(jī)，為機(jī)器人視覺提供更穩(wěn)定連接方案

奧比中光攜手研華，為AMR開發(fā)者提供“開箱即用”的AI視覺解決方案