一个人在线观看免费的视频完整版,欧美男同gay猛男

機器人賽道有多火？

2023-07-12 11:39

物聯(lián)網(wǎng)智庫

關(guān)注

資料來源：voxposer.github.io等

作者：Alex

物聯(lián)網(wǎng)智庫整理發(fā)布

導(dǎo)讀

近期，由知名美籍華裔人工智能學(xué)者李飛飛帶隊的項目組，發(fā)布了一項最新的“具身智能”成果——VoxPoser。

你的童年里是否也有一段關(guān)于機器人的記憶——來自于阿諾德·施瓦辛格飾演的T-800終結(jié)者。

1984年，這部由好萊塢鬼才導(dǎo)演詹姆斯·卡梅隆執(zhí)導(dǎo)的科幻電影《終結(jié)者》上映即獲得無數(shù)影迷追捧，原因無他，除了一眾影星的傾情演繹之外，導(dǎo)演天馬行空的想象著實讓當(dāng)時的人為之著迷。

如今距離電影上映已過去將近40年時間，而電影中具有獨立行動能力的機器人也被科學(xué)家們真真實實地搬進了現(xiàn)實當(dāng)中。

就在近期，由知名美籍華裔人工智能學(xué)者李飛飛帶隊的項目組，發(fā)布了一項最新的“具身智能”成果——VoxPoser。

該項目主要研究目標(biāo)是——在給定開放式指令集和對象集的情況下，為各種操作任務(wù)合成機器人軌跡，即密集的六個自由度末端執(zhí)行器航點序列。

該項目通過從大語言模型和視覺-語言模型中提取機會和約束，構(gòu)建3D值地圖，可以讓機器人在零樣本學(xué)習(xí)的情況下，理解指令，分解任務(wù)，規(guī)劃路徑，并最終實現(xiàn)操作任務(wù)。

值得一提的是，在該方法下進行機器人操控時，是不需要做數(shù)據(jù)投喂和預(yù)訓(xùn)練的。

目前，關(guān)于該項成果的項目主頁和相關(guān)論文都已經(jīng)上線，對應(yīng)的代碼也即將推出。

關(guān)于VoxPoser

關(guān)于VoxPoser這項成果，可以說又是人工智能領(lǐng)域和機器人領(lǐng)域融合的一個新的里程碑。

它正在讓抽象的AI通過機器人變得具象化，未來，或許你期望的就不再是童年的那個“T-800終結(jié)者”玩具，而可能是真正的具備具身智能的機器人。

具體來說，VoxPoser的原理解釋起來還是相對簡單的。

就是使用者給定執(zhí)行具體需求的自然語言指令，以及環(huán)境信息（通過相機采集的RGB-D的圖像）。

然后，LLM（Large Language Model，大語言模型）將根據(jù)以上信息生成與VLM（Visual Language Model，視覺-語言模型）交互的代碼。

基于這一系列操作，系統(tǒng)會自動生成相應(yīng)的供機器人進行空間感知的“3D Value Map”（3D值圖）。它會“告訴”機器人自己在哪里、目標(biāo)在哪里。

之后進入下一個階段，將生成的3D值圖用作機器人運動規(guī)劃的目標(biāo)函數(shù)，便能夠合成最終要進行的操作軌跡了。

這一成果的最大亮點在于——整個機器人訓(xùn)練過程是不需要進行任何額外的數(shù)據(jù)投喂和預(yù)訓(xùn)練的。換而言之，目前機器人訓(xùn)練所需要進行的預(yù)定義訓(xùn)練、大規(guī)模數(shù)據(jù)缺失等問題，在這里統(tǒng)統(tǒng)不存在。

正是因為具備上述能力，機器人只要符合相關(guān)流程，也基本能夠完成任何給定任務(wù)。

基于此，項目團隊按照該方法進行了大量的實驗，通過下達日常操作任務(wù)，比如，“把毛巾掛在架子上”、“把最上面的抽屜關(guān)上”、“把面包片從面包機中取出來，放到木板上”等，對VoxPoser進行驗證。

在實驗過程中，項目團隊還故意了打斷任務(wù)執(zhí)行，展示了該成果在動態(tài)擾動下的魯棒性。

由于語言模型輸出在整個任務(wù)中保持不變，因此VoPoser可以緩存其輸出，并使用閉環(huán)視覺反饋重新評估生成的代碼，從而可以使用MPC快速重新規(guī)劃。

比如當(dāng)對機器人發(fā)出“把垃圾紙分類到藍(lán)色托盤里”，可以看到無論怎樣對機器人進行干擾，包括阻止機器人行動、調(diào)整物品擺放，它都可以順利執(zhí)行任務(wù)。

論文指出，無論是在真實領(lǐng)域，還是模擬領(lǐng)域，VoPoser的實驗結(jié)果要顯著優(yōu)于基于基線任務(wù)。

在真實領(lǐng)域，VoPoser表現(xiàn)的會更加靈活、更加穩(wěn)健，尤其在外部干擾的情況下。

另外，模擬領(lǐng)域中，VoPoser在兩個類別（總共13個任務(wù)）上的表現(xiàn)也更好。

VoPoser在零樣本下的學(xué)習(xí)能力和出錯情況也更優(yōu)。

另外，論文闡述了VoPoser所涌現(xiàn)的四個新能力：

估算物理屬性：給定兩個未知質(zhì)量的方塊，機器人被要求使用現(xiàn)有工具進行物理實驗，確定哪個方塊更重。

常識性行為推理：在擺桌子的任務(wù)中，用戶可以指定行為偏好，比如“我是左撇子”，這要求機器人在任務(wù)環(huán)境中理解其含義。

細(xì)粒度語言校正：對于需要高精度的任務(wù)，比如“用蓋子蓋住茶壺”，用戶可以給機器人提供精確的指令，比如“你離目標(biāo)有1厘米的偏差”。

多步驟視覺操作：在任務(wù)“精確地將抽屜打開一半”的情況下，由于物體模型不可用，信息不足，機器人可以根據(jù)視覺反饋提出多步驟的操縱策略。首先完全打開抽屜并記錄把手的位移，然后將其關(guān)閉到中間位置以滿足要求。

機器人開啟AI的下一個浪潮

VoPoser的誕生并非偶然。去年年中，李飛飛曾在一篇文章中指出，計算機視覺未來發(fā)展的幾個重要方向，其中最重要的一個就是具身智能。

所謂具身智能，就是Embodied Intelligence，簡稱EI，圖靈于1950年在論文《Computing Machinery and Intelligence》中第一次提出這一概念。具身智能可以讓機器像人一樣能和環(huán)境交互感知，自主規(guī)劃、決策、行動，并具備執(zhí)行能力，也被認(rèn)為是AI的終極形態(tài)。

李飛飛直言，具身智能將會成為AI領(lǐng)域的下一個“北極星問題”之一。而在不久前的ITF World 2023半導(dǎo)體大會上，英偉達首席執(zhí)行官黃仁勛也表達了類似的觀點，稱“AI的下一個浪潮將是具身智能”。

無獨有偶，對于具身智能引發(fā)的AI與機器人融合所形成的巨大想象空間，李飛飛也并不是唯一的“追光者”。

因ChatGPT有“老樹逢春”感覺的微軟也沒閑著，他們此前也發(fā)布了一篇論文，探索大模型與機器人的結(jié)合。

論文提到，將把ChatGPT的功能擴展到機器人領(lǐng)域，從而可以讓使用者用自然語言去控制如機械臂、無人機、家庭輔助機器人等“智能體”。

除了微軟之外，在今年年初，谷歌盡管在ChatGPT上栽了跟頭，但在具身智能領(lǐng)域卻并未遲疑。比起論文來，谷歌反倒直接“甩”出了一個參數(shù)達5620億的具身多模態(tài)語言模型——PaLM-E，其最亮眼的能力就是可以讓機器人具備“聽懂人話”的能力。

據(jù)了解，PaLM-E-562B集成了參數(shù)量540B的PaLM和參數(shù)量22B的視覺 Transformer（ViT），是目前已知的最大的視覺-語言模型。

而在國內(nèi)，剛剛過去的“2023世界人工智能大會上”（WAIC），智能機器人簡直成了除AIGC之外的另一大亮點。會上，數(shù)百家國內(nèi)外企業(yè)集結(jié)，各家智能機器人同臺競技。

比如智能機器人企業(yè)達闥，全方位展示了具身智能服務(wù)機器人解決方案。據(jù)了解，達闥此次亮相的多臺機器人，全部接入和升級了達闥最新發(fā)布的RobotGPT、海睿AGI和海睿OS 5.1。

其中，達闥人形機器人小姜下一代Cloud Ginger 2.0全身采用了新一代智能柔性關(guān)節(jié)SCA2.0和多種傳感器，同時具備視覺和激光定位導(dǎo)航能力，可以包攬迎賓接待、商務(wù)導(dǎo)覽、沖泡咖啡、物品遞送、節(jié)目表演、教育科研、陪護照看等多種任務(wù)。

另據(jù)市場消息，達闥機器人已獲超10億人民幣C輪融資。此前，達闥機器人完成5輪融資，赴美上市失敗后有消息稱其今年將赴港上市。

云深處科技則在本屆大會上亮相了四足機器人絕影Lite3和工業(yè)級絕影X20多傳感融合版。尤其值得一提的是，絕影X20面向工業(yè)垂類賽道，具備AI智能識別和自主任務(wù)規(guī)劃功能，可以為電力、建筑等專業(yè)行業(yè)提供解決方案。

而除了機器人本賽道的玩家“樂此不疲”的追逐具身智能的風(fēng)口之外，還有越來越多的“跨界選手”加入其中。

互聯(lián)網(wǎng)科技企業(yè)代表：網(wǎng)易、字節(jié)跳動、京東、美團等巨頭均沒閑著，紛紛投資成立了專業(yè)機器人業(yè)務(wù)公司。

據(jù)公開消息顯示，6月28日，杭州網(wǎng)易軒之轅智能科技有限公司、網(wǎng)易牽波智能科技（杭州）有限公司同時成立，經(jīng)營范圍包括了智能機器人的研發(fā)和人工智能應(yīng)用軟件的開發(fā)。而需要指出的是，事實上早在2017年，網(wǎng)易就成立了網(wǎng)易伏羲，并且網(wǎng)易伏羲具身智能工程機器人也在本屆WAIC上驚艷亮相。

緊隨網(wǎng)易的是字節(jié)跳動，7月4日，該公司傳出也將要造機器人。并且消息透露，其機器人團隊目前已經(jīng)集合50人，年底將擴充至百人以上。成立后，字節(jié)機器人團隊將隸屬于字節(jié)AI Lab，由現(xiàn)任總監(jiān)李航領(lǐng)導(dǎo)。

京東雖然暫時沒有關(guān)于新的機器人公司成立的消息爆出，但據(jù)6月初的消息顯示，京東集團旗下全平臺云計算綜合服務(wù)提供商京東云計算有限公司也進行了工商變更，經(jīng)營范圍新增了智能機器人研發(fā)、電池零配件生產(chǎn)等。

傳統(tǒng)行業(yè)玩家中，碧桂園、中國石化等躬親入局。其中，碧桂園較早就入局機器人賽道，而中國石化銷售股份有限公司聯(lián)合航天云機（北京）科技有限公司則在今年初成立的易嘉油智能機器人有限公司，主要做服務(wù)消費機器人制造、服務(wù)消費機器人銷售、智能機器人的研發(fā)等。

寫在最后

作為從科幻電影中走進現(xiàn)實的一個典型應(yīng)用，人們對于機器人的向往絕不是說說而已。

值得一提的是，受到WAIC影響，機器人賽道的持續(xù)火爆引起了資本領(lǐng)域的極大興趣，期間機器人相關(guān)板塊備受關(guān)注，企業(yè)股票也是順勢上漲。

另據(jù)中國電子學(xué)會在《中國機器人產(chǎn)業(yè)發(fā)展報告（2022年）》中的預(yù)測，到2024年，全球機器人市場規(guī)模將有望突破650億美元。

真金白銀的投入，往往說明了問題——隨著AI大模型和機器人的深度融合，更智能、更聰明的機器人勢必將成為新一輪的創(chuàng)新風(fēng)口。

參考資料：

1.https://voxposer.github.io/

2.https://voxposer.github.io/voxposer.pdf

3.https://www.youtube.com/watch?v=Yvn4eR05A3M

4.https://mp.weixin.qq.com/s/eaZtaYMJYe0oCLq1h0fPiw

5.https://mp.weixin.qq.com/s/XleXS_5shzZNiOSxUFZfgQ

6.https://mp.weixin.qq.com/s/s0YEUCHlix-AVQAU_gtlZA