你是否曾經(jīng)想過,如果機器人能像人一樣聽懂我們的語言,自動分解、規(guī)劃和執(zhí)行任務,那將會是多麼神奇的事情?
這一切,現(xiàn)在已經(jīng)成為現(xiàn)實。達闥推出了機器人行業(yè)的多模態(tài)人工智能大模型——RobotGPT,讓機器人真正聽懂你的話語。那麼,什麼是多模態(tài)大模型?RobotGPT大模型具體是什麼,能幹什麼?這些熱知識,一文帶你看懂,手指下滑,一起來GET!
什麼是RobotGPT?機器人多模態(tài)大模型!
RobotGPT是為實現(xiàn)機器人在複雜應用場景下的多模態(tài)行為而提供的交互生成型AI(Generative AI)模型。它以Transformer為基礎,具備多模態(tài)(文本、語音、圖片、視覺、運動、點雲(yún)等)融合感知、認知、決策和行為生成能力。簡單來說,RobotGPT就像一個全能的機器人大腦,可以理解和處理各種類型的信息,然後做出相應的決策和行動。

RobotGPT是達闥為機器人設計的多模態(tài)大模型,※幫你劃重點:RobotGPT不是應用,它是大模型!
小知識:什麼是多模態(tài)大模型?
目前常見的AI大模型有NLP(自然語言處理)大模型、CV計算機視覺大模型、多模態(tài)大模型等。NLP大模型具備超強語言理解能力以及對話生成、文學創(chuàng)作等能力,比如ChatGPT。CV計算機視覺大模型,可以對海量圖片進行識別。這兩種大模型基本都是單模態(tài)的。多模態(tài)大模型是指能夠處理和理解多種類型數(shù)據(jù)(如文本、圖像、聲音等)的大模型。
未來的通用人工智能(AGI)將邁向兩個不同的方向:一是走向多模態(tài),大模型不僅限於文本和視覺,還可能擴展到嗅覺和觸覺等感官領域;二是走向具身智能,涵蓋機器人、機械臂、無人車等物理實體,使通用人工智能進入物理世界。人類的生存環(huán)境和思考過程都是多模態(tài)的(圖、文、聲、光、電、影等),因此,未來真正的AGI必然是與人類相仿的,高效的多模態(tài)智能處理機,RobotGPT就是一個多模大模型,它具備高效的多模態(tài)信息處理能力和人性化的行為表達能力,可以對文本、語音、圖片、視覺、運動、點雲(yún)等多種信息來源進行理解和處理,支持語言、視覺和運動的多模態(tài)行為表達,使得人機交互更加自然、富有情感。
RobotGPT核心功能:更貼近人的交互方式、更智能的行為決策
RobotGPT發(fā)佈后還有一個被大家問爆了的問題是它能幹什麼,現(xiàn)在一起來看下吧。
目前RobotGPT擁有多模態(tài)交互、生成式AI、自主感知和認知、智能決策等強大功能。其中,多模態(tài)交互和多模態(tài)融合智能,為機器人提供更多元全面的感知和認知能力,從而提高人機交互的效果和體驗。大模型結合具身智能和AIGC,讓機器人對話理解能力大幅提升,能像人一樣去理解材料和對話,生成符合人類價值觀的回答,自動任務分解和自主行為決策可以讓機器人作出自主決策和動作。智能語音、圖片視頻理解,讓機器人能聽、能看、能懂,全方位理解人的需求。情感分析、表情動作生成,讓機器人更有情感,更有溫度。AI變聲、聲紋識別,讓機器人更有個性,更有安全感。行業(yè)問答、多輪對話,無論你有任何問題,機器人都能對答如流。

這是RobotGPT的AIGC對話生成效果展示,回答流暢自然有邏輯,有大量知識儲備。還有一個很炸裂的能力是,你不需要花費心思給AI編造完整的人設和個性,目前後臺有近百種AI人設,還有通過預設任務選擇,就可完成上百種典型場景的精準問答。

當然,「Chat」只是RobotGPT其中一項能力,只靠閑聊、寫詩、作畫無法重構人類社會。RobotGPT最重要的是為機器人帶來了更加先進的多模態(tài)感知和自主認知能力、複雜邏輯推理和智能決策能力以及多模態(tài)行為表達能力,通過強化學習、視覺語言導航、視覺語言操作、運動控制等前沿技術,大模型能夠高效處理和分析海量數(shù)據(jù),讓機器人更加深入地理解周圍環(huán)境,自主的去靈活應對各種任務和挑戰(zhàn)。
舉個例子,當你對一個集成了RobotGPT的機器人說「我口渴了」, 這個指令並沒有明確包含具體的對象「水」,而是隱含了「去接一杯水」的需求,機器人會通過常識推理、場景感知、用戶畫像信息決策去哪裡取水,用何種工具接水,取水后如何返回,以及如何將水遞給你。然後,利用視覺語言導航、位姿估計、抓取檢測、運動控制等技術去完成倒水任務,這一系列過程是完全自主決策的,不需要人為的干預。隨著大模型規(guī)模增大到一定程度,機器人將能夠像人一樣使用經(jīng)驗來穿越複雜環(huán)境。
RobotGPT重心在於解決行業(yè)側需求 推動產業(yè)升級和變革
一個業(yè)界共識是,大模型紮根行業(yè),與行業(yè)深度結合,才能做的深,走得遠。
相較通用大模型,更有針對性、更專業(yè)化的行業(yè)大模型在金融、醫(yī)療、政務、教育等多個行業(yè)擁有廣泛的應用和商業(yè)創(chuàng)新潛力。RobotGPT是機器人大模型,它構建在基礎大模型的能力之上,具備一定的通用能力,同時能覆蓋多任務使用場景,能更好地理解和處理行業(yè)特定的問題和任務。無論是在能源電力、醫(yī)療健康、金融保險、交通樞紐、教育諮詢、高端製造還是其他領域,RobotGPT都能發(fā)揮其強大的能力?;抖嗄暝陔?yún)端機器人領域的深耕和積累,達闥已聯(lián)合行業(yè)頭部企業(yè),對超過10個的典型行業(yè)的100多個業(yè)務場景進行了大模型的支持和應用,並且在多個領域沉澱了完整的項目解決方案。
這是經(jīng)過定製化訓練后,RobotGPT對於垂直領域的實際對話效果展示,比如做一個專業(yè)的政務服務問答,在醫(yī)院協(xié)助患者問診等,可以看出,RobotGPT能針對特定場景、解決特定問題,讓機器人迅速做出適配指令的合適行動。


目前市場上的大模型大多依賴公開數(shù)據(jù)集或網(wǎng)絡數(shù)據(jù)進行訓練,這導致其產生的結果在專業(yè)性和精確性上有所不足。在商業(yè)領域,大模型達到95%的精度是必要的門檻。在回答精度方面,RobotGPT也沒輸過,它能精準理解業(yè)務場景,回答準確率超過95%,遠高於行業(yè)平均水平。
說到訓練,RobotGPT是怎麼訓練的呢?
RobotGPT最佳訓練平臺:海睿OS
在AI領域,大模型是具有龐大的參數(shù)規(guī)模和複雜程度的機器學習模型,通常需要大量的數(shù)據(jù)進行訓練,以便學習到足夠複雜的模式。訓練一個AI模型,技術複雜度並不比訓練一個國家隊運動員低,海睿OS操作系統(tǒng)為RobotGPT提供了理想的訓練平臺。在這裏,我們構建了一個超級真實、虛實同步的"海元世界",這就是"機器人元宇宙",通過數(shù)字孿生訓練和強化學習等技術,可以讓機器人在視覺、語音、情緒、動作等方面進行無數(shù)次的"鍛煉",不斷進化。

前面我們提到,僅靠公開數(shù)據(jù)集或網(wǎng)絡數(shù)據(jù)來訓練大模型是不夠的,海睿OS不僅支持吸收大量來自真實環(huán)境下的機器人行為數(shù)據(jù),還支持合成海量高質量的合成數(shù)據(jù),這是多模態(tài)機器人大模型訓練的基礎,通過自動創(chuàng)建、生成現(xiàn)實世界中難以或者無法採集的數(shù)據(jù)場景,可以模擬各種可能的情況、提供更多的訓練樣本,從而提高模型的精確性、可靠性、安全性。
此外,海睿OS還提供了一個基於數(shù)字孿生的可視化機器人應用開發(fā)套件(HARIX RDK),開發(fā)者可以建立仿真環(huán)境,模擬現(xiàn)實世界的目標場景,進行機器人多模態(tài)技能訓練。同時,RobotGPT還有基於大模型的示範學習技術,通過視覺、語音、思維鏈和原子技能組合示教,開發(fā)者可以像教孩子學習一樣,教授機器人各種技能。
RobotGPT兩種形態(tài):服務平臺和一體機隨心選
RobotGPT的產品形態(tài)有服務平臺和一體機兩種可選,服務平臺提供RobotGPT多模態(tài)大模型的在線服務,一體機則為軟硬一體機,是為解決企業(yè)在業(yè)務中面向特定行業(yè)的生成式大模型推理、訓練或混合推訓及應用私有化部署等剛性需求而設計的行業(yè)多模態(tài)大模型尖端產品。
AI奇點在即,人機交互方式發(fā)生了根本性變化,大模型將成為每位工作者無處不在的得力助手。
AI不會直接取代人類,而是[會使用AI的人]替代[不會使用AI的人],何不先於他人擁有機器人領域大模型「RobotGPT」?你更可以基於RobotGPT多模態(tài)大模型,利用私域數(shù)據(jù)進行訓練調優(yōu),打造屬於自己的行業(yè)大模型。
RobotGPT賦能千行百業(yè)、引領具身智能,達闥希望通過RobotGPT幫助更多產業(yè)夥伴,來完成數(shù)字化轉型和降本增效,為產業(yè)和社會創(chuàng)造更大價值!