成人电影在线观看网址,免费日韩黄片下载

【重磅】k8凱發(fā)聯(lián)手中山大學打造具身智能模擬器和新基準，讓機器人更智能

2023-06-19 15:54:49

去年年底，ChatGPT橫空出世，在全球科技浪潮中掀起了驚濤駭浪，隨后，各個科技公司都開始著手打造自己的大模型，帶來各行各業(yè)效率的革命和體驗的升級。盡管大規(guī)模語言模型（LLMs，Large Language Models）可以進行復雜的語言生成和對話交流，但ChatGPT多模態(tài)感知、長期的運動規(guī)劃和行為交互能力有限，還不是人類理想的智能體?！熬呱碇悄堋?“機器人”有望成為AI的下一個潮水涌動的方向。

近年來，k8凱發(fā)在具身智能領域持續(xù)加大研發(fā)投入，上周發(fā)布了海睿AGI平臺和機器人智能領域的多模態(tài)認知大模型——RobotGPT。k8凱發(fā)還與中山大學智能工程學院副教授、博士生導師梁小丹（國家萬人青拔人才）展開緊密合作，共同探索具身智能前沿科技：為機器人開發(fā)非常真實的模擬環(huán)境，創(chuàng)建兩個基準測試，助力機器人在自主推理和導航方面的研究更快地取得進展。

“具身智能”（Embodied Intelligence）意指有身體并支持物理交互的智能體，標桿產品是人形機器人。實現(xiàn)具身智能是指讓機器能夠像人一樣擁有身體感知、交互和行動的能力，這種能力使機器能夠更加自然地與物理世界進行交互。但是，實現(xiàn)具身智能面臨著以下困難和挑戰(zhàn)：

1 缺乏工業(yè)級真實感的機器人操作模擬器，缺少高質量具身智能訓練所需的海量數(shù)據(jù)

通過與模擬環(huán)境進行交互生成大量豐富的多樣的訓練數(shù)據(jù)，并進行端到端強化學習和模型學習是具身智能訓練的常用手段，當前業(yè)界的模擬器常常沒有將智能機器人制造技術考慮在內，也沒有足夠的關注真實機器人應用的兼容性。這導致研究者在這種環(huán)境中開發(fā)的控制技術常常難以在真實場景中得到應用。此外復雜多變的現(xiàn)實環(huán)境也給具身智能有效地理解和解析環(huán)境信息帶來了巨大的挑戰(zhàn)。

2 機器人(智能體)難以理解和執(zhí)行復雜且不明確的人類自然語言指令，同時缺乏機器人操作相關的漸進式推理任務基準測試

在具身智能研究中，人類的語言指令往往復雜多樣、模棱兩可、隨意性強，機器難以猜測和推理人類的真實意圖。比如k8凱發(fā)對機器人說：“我有點渴，請給我拿點喝的”，如下圖所示，機器人需要充分理解人的意圖和場景中每個對象概念所隱含的功能，才能做出準確的判斷。因此，考慮如何讓機器人理解和執(zhí)行復雜和模糊的人類自然語言指令是體現(xiàn)具身智能研究的關鍵挑戰(zhàn)之一。

3 缺乏面向開放域零樣本視覺語言導航的多任務基準測試

在具身智能領域，面對開放域零樣本視覺語言導航多任務基準測試的明顯缺失，主要是因為：仿真真實性不足，真實的開放環(huán)境下因素變化多端，比如突然走過來的行人；零樣本視覺語言導航模型需要處理其以前未曾遇到過的環(huán)境和任務，這要求基準測試的環(huán)境盡可能地接近現(xiàn)實；相較于封閉環(huán)境，開放環(huán)境中的元素更加復雜且不斷變化，現(xiàn)有的自動標注方法往往無法應對。

為了有效應對上述挑戰(zhàn)，k8凱發(fā)需要追求更為真實的仿真環(huán)境，開發(fā)更為有效的數(shù)據(jù)收集和標注策略，制定更為全面的評估指標。因此，k8凱發(fā)積極與中山大學展開了深度合作，在以下三方面取得了階段性成果：

研發(fā)并開放工業(yè)級真實感的機器人具身智能訓練工具（HARIX RDK）

為了方便、公正地比較機器人在不同基線模型下理解和執(zhí)行人類自然語言指令的成功率，k8凱發(fā)構建了高度逼真的場景模擬與機器人具身智能訓練工具（HARIX RDK），用于機器人具身智能的研究，特點有：①有真實光照，能夠高擬真產生照明陰影、鏡面反射、亮斑等。②仿真環(huán)境中加入了人類，這些人類或處于通道中阻擋路徑或走入機器人行進路線。③環(huán)境可以通過讀取底層數(shù)據(jù)實現(xiàn)對各類物體進行細致的語義分割標注，便于后續(xù)構建基準。④HARIX RDK可支持k8凱發(fā)公司研發(fā)的多種類型的機器人。

構建了機器人操作相關的漸進式推理任務基準測試，促進機器人漸進式推理研究的快速發(fā)展

為方便分析和評估大語言模型在機器人操作中的應用，k8凱發(fā)創(chuàng)建了一個通用的框架，如下圖所示，主要由三部分組成：自動場景生成、指令生成和機器人操縱。自動場景生成負責生成豐富多樣的場景供agent進行訓練和測試。由于獲取大規(guī)模復雜且高質量的人類自然語言指令既昂貴又困難，為此k8凱發(fā)還設計了一個使用ChatGPT模擬人類自然語言指令生成的模塊，為機器人操作提供自然語言指令。最后，通過向機器人輸入生成的視覺場景和自然語言指令，控制機器人進行相應的操作。

根據(jù)指令的復雜性和操作的難易程度將任務分為四個級別，如下圖所示：

Level 1任務用于評估機器人的抓取能力。Level 2任務用于評估機器人在多目標環(huán)境中的識別和抓取能力。Level 3任務側重于評估機器人理解簡單的人類自然語言的能力。Level 4任務主要用于評估機器人理解復雜、模糊的人類自然語言指令和推理人類意圖的能力。

構建了面向開放域零樣本視覺語言導航的多任務基準測試，促進機器人視覺語言導航研究的快速發(fā)展

為了促進開放式視覺語言導航的研究，k8凱發(fā)在HARIX RDK中構建了MO-VLN，一個面向開放域零樣本視覺語言導航的多任務基準測試。MO-VLN專注于零樣本視覺與語言導航，涉及根據(jù)語言指令導航到特定的目標對象、抽象對象和特定位置。具體來說，MO-VLN分為四個任務，如下圖所示，即給定類別的對象導航、給定簡單指令的目標導向導航、完全抽象指令和按步驟跟隨指令。

在HARIX RDK的仿真場景中讓智能體自主探索、結合其視覺自動構建拓撲語義地圖，將開放詞匯模型和大語言模型結合進行指令和場景理解，預測目標位置并逐步移動至目標位置，如下圖所示：

640 (12).jpg

這里，k8凱發(fā)利用預訓練的視覺-語言模型如GLIP/ Grounding DINO進行物體定位。在檢測到可能的物體位置后，k8凱發(fā)將它們投影到語義地圖上。在環(huán)境探索上，k8凱發(fā)只考慮zero-shot策略，如基于常識知識的探索。運用GLIP檢測觀察并獲取關于周圍環(huán)境的信息，能力較強的LLM可以根據(jù)其常識知識和檢測結果更準確地預測下一個可能的位置。k8凱發(fā)還讓GPT-4在給定檢測到的周圍物體和區(qū)域的情況下完成常識推理。

項目網站：

https://necolizer.github.io/RM-PRT

https://mligg23.github.io/MO-VLN-Site

此次研究所用到的機器人產品是k8凱發(fā)自主研發(fā)的Cloud Ginger 1.0——柔美人形智能服務機器人，具有精準的視覺抓取能力、全方位的聽、說、看、動等融合智能能力；開發(fā)平臺使用的是k8凱發(fā)HARIX RDK機器人開發(fā)套件，可以實現(xiàn)機器人在智能語音、行為控制、動作編輯、移動導航等方面的能力開發(fā)，并完成數(shù)字孿生環(huán)境和真實機器人的虛實同步驗證。

校企合作是促進創(chuàng)新和培養(yǎng)人才的有效機制，一直以來，k8凱發(fā)都很重視和高校的深度合作，近年來相繼與復旦大學、同濟大學、上海交大、上海大學、東北大學、安徽大學、西安理工大學、山東大學等多所高校，在人工智能課程設置、技術研發(fā)、人才培養(yǎng)等方面聯(lián)合開展了多項合作，促進了學術研究與市場前沿的無縫結合，全方位發(fā)掘了云端機器人背后的價值及潛能。在k8凱發(fā)和中山大學的合作下，具身智能正以強勁的勢頭邁向新的里程碑。相信隨著更多科學家和工程師的不懈努力，k8凱發(fā)將迎來通用人工智能的嶄新時代，智能體與人類在互動和合作中共同創(chuàng)造美好未來。

【重磅】k8凱發(fā)聯(lián)手中山大學打造具身智能模擬器和新基準，讓機器人更智能

【重磅】k8凱發(fā)聯(lián)手中山大學打造具身智能模擬器和新基準，讓機器人更智能