国产精品久久久久永久免费看,大地资源网更新免费播放视频,国产成人久久av免费,成人欧美一区二区三区黑人免费,丁香五月天综合缴情网

  • 正文
  • 相關推薦
申請入駐 產(chǎn)業(yè)圖譜

對話智源研究院王仲遠:做具身智能的“安卓系統(tǒng)”,而非專用的“iOS”

06/09 12:45
471
加入交流群
掃碼加入
獲取工程師必備禮包
參與熱點資訊討論

作者Yoky,郵箱yokyliu@pingwest.com

大模型的發(fā)展正在遭遇瓶頸。隨著互聯(lián)網(wǎng)文本數(shù)據(jù)被大規(guī)模消耗,基于數(shù)字世界訓練的AI模型性能提升速度明顯放緩。與此同時,物理世界中蘊藏著數(shù)字世界數(shù)百倍甚至千倍的多模態(tài)數(shù)據(jù),這些數(shù)據(jù)遠未被有效利用,成為AI發(fā)展的下一個重要方向。

在2025北京智源大會上,智源研究院發(fā)布了“悟界”系列大模型,試圖推動AI從數(shù)字世界邁向物理世界,實現(xiàn)所謂的物理AGI。這一系列包含原生多模態(tài)世界模型Emu3、腦科學多模態(tài)通用基礎模型見微Brainμ、跨本體具身大小腦協(xié)作框架RoboOS 2.0與具身大腦RoboBrain 2.0以及全原子微觀生命模型OpenComplex2,覆蓋從宏觀到微觀的物理世界認知。

然而,物理AGI面臨著實實在在的技術困境。當前具身智能陷入一個“死循環(huán)”:硬件不成熟導致數(shù)據(jù)稀缺,數(shù)據(jù)稀缺使得模型能力有限,模型能力弱又影響落地應用,最終阻礙產(chǎn)業(yè)規(guī)?;l(fā)展。如何破解這一循環(huán)?數(shù)據(jù)從何而來?跨本體泛化如何實現(xiàn)?

在智源大會前夕,硅星人與智源研究院院長王仲遠進行了深度對話,探討物理AGI從概念到現(xiàn)實需要跨越哪些關鍵門檻,以及智源的技術路徑能否為這一變革提供可行的解決方案。

打造具身智能的“安卓系統(tǒng)”

1. 從'悟道'到'悟界'的命名變化,反映了智源對大模型技術發(fā)展趨勢怎樣的判斷?這種轉(zhuǎn)變的底層邏輯是什么?

王仲遠:“悟界”的“界”,代表著對于虛實世界邊界的突破,代表對物理世界的賦能,是向物理AGI方向的邁進。

這種轉(zhuǎn)變背后有深層的技術判斷。我們堅定的認為大模型的技術還遠沒有到發(fā)展的盡頭。過往所說的“百模大戰(zhàn)”更多的是大語言模型的競爭,而大語言模型受限于互聯(lián)網(wǎng)數(shù)據(jù)的使用,基礎模型性能雖然還在提升,但提升速度不如以前。

解決大語言模型性能提升瓶頸的解法有很多。一是通過強化學習,在后訓練和推理上提升,例如O1、O3、O4、R1。二是數(shù)據(jù)合成。還有一個方向就是多模態(tài)。我們堅定的認為在全世界范圍內(nèi),多模態(tài)數(shù)據(jù)是文字數(shù)據(jù)的百倍千倍乃至萬倍甚至更多,這些數(shù)據(jù)遠沒有被很有效利用。

在去年的智源大會上,我們已經(jīng)對大模型的技術路線進行了預判,認為會從大語言模型往多模態(tài),尤其是原生多模態(tài)世界模型的方向發(fā)展。原生多模態(tài)世界模型本質(zhì)上是為了讓人工智能感知和理解物理世界,進而推進和物理世界的交互。

2.?原生多模態(tài)模型的本質(zhì)是構建“世界模型”么?是追求對物理規(guī)律的極致建模?還是構建具身智能的認知框架?

王仲遠“世界模型”在世界范圍內(nèi)沒有共同的定義,有很多名稱--“空間智能”、“時空智能”等。我們將Emu3命名為“原生多模態(tài)世界模型”時,是認為它能通過單一模型捕捉世界的規(guī)律,不僅僅是物理世界的規(guī)律,還能融合豐富的多模態(tài)數(shù)據(jù),例如人類與世界交互產(chǎn)生的腦電信號等,世界的多模態(tài)符號非常豐富,遠不止圖像、文字、聲音和視頻。智源的“原生多模態(tài)世界模型”代表的更多是人工智能對世界的探索。

“讀萬卷書,更需要行萬里路”,如果一個人從出生就沒有見過世界,即使讀到了博士,對世界的理解依然是片面的。大模型技術過往基于互聯(lián)網(wǎng)數(shù)據(jù),尤其是互聯(lián)網(wǎng)文本數(shù)據(jù)訓練而來,固然對知識的理解很強,但對真實世界的運作規(guī)律并不理解。AI從數(shù)字世界跨向物理世界時必須突破數(shù)字世界的隔閡,最重要的隔閡和邊界是空間和時間的感知。

3.?物理世界的多模態(tài)是哪些模態(tài)?我看到見微Brainμ的模態(tài)就是收集神經(jīng)信號,未來AI是否可以突破人類的感知限制?

王仲遠:當然,“世界模型”到底包含什么,除了時間和空間,還有不同模態(tài)數(shù)據(jù),例如腦信號數(shù)據(jù)、各種傳感器數(shù)據(jù)等,真實世界模型復雜性更高。

見微Brainμ模型,將fMRI、EEG、雙光子等神經(jīng)科學與腦醫(yī)學相關的腦信號統(tǒng)一token化,實現(xiàn)多模態(tài)腦信號與文本、圖像等模態(tài)的多向映射,。

Brainμ整合了神經(jīng)科學領域多個大型公開數(shù)據(jù)集和多個合作實驗室的高質(zhì)量神經(jīng)科學數(shù)據(jù),完成了超過100萬單位的神經(jīng)信號預訓練。

Brainμ可同步處理多類編解碼任務,兼容多物種動物模型(包括小鼠 狨猴 獼猴)與人類數(shù)據(jù),實現(xiàn)科學數(shù)據(jù)注釋、交互式科學結(jié)論解讀、大腦感覺信號重建及模擬刺激信號生成。。

具身智能領域會有更多的模態(tài),比如說3D信號、時空信號等,都可以作為一種模態(tài)。各種傳感器的數(shù)據(jù),這些都屬于物理世界的一種模態(tài)。真實的世界模型的復雜性會更強。

現(xiàn)在很多多模態(tài)模型,看到這個咖啡杯在桌子上,會描述“咖啡杯在桌上,這個咖啡杯是白色的,上面有一些文字”,但是人類看到首先有空間的認知是“咖啡杯在桌子的邊緣,很危險”?,F(xiàn)在絕大部分多模態(tài)大模型不具備這樣的判斷能力。

機器人操作時就應該從邊緣往里拿,而不是從里往外拿,因為一碰就會跌落,這個跌落就包含時間序列的預測,咖啡杯有可能掉下去甚至弄臟地板,這就是時空智能預測,是智源所探索的多模態(tài)世界模型的能力。

4.?RoboBrain 2.0在技術架構上與其他具身智能模型的本質(zhì)區(qū)別是什么?為什么選擇跨本體通用而非專用優(yōu)化的路線?

王仲遠智源具身大腦RoboBrain能夠跨本體,目前沒有幾家公司能夠真正做到這一點,就好比IOS系統(tǒng)只能在iPhone使用,但安卓系統(tǒng)能在不同的手機上運行。智源是一家科研機構,希望構建面向不同硬件本體使用的具身大模型,這是我們的理念。

RoboBrain能夠適配各種構型的機器人,包括機械臂、輪式單臂、輪式雙臂、雙足、四足等等。RoboBrain 2.0相比于RoboBrain 1.0的基于Prompt的多機任務規(guī)劃機制和初級空間理解能力,進一步擴展了基于多本體-環(huán)境動態(tài)建模的多機協(xié)同規(guī)劃能力,可實時構建包含本體定位的場景圖(Scene Graph),并自動完成跨本體的任務規(guī)劃。

當前,具身智能的VLA模型泛化性不夠,也許能把咖啡端得很好,但并不能很好地解決其他泛化任務。具身智能或者機器人2.0時代,最重要的是能突破專有任務,達到一定的泛化性,再到未來具備更通用、跨領域的泛化性,這需要一定的發(fā)展過程。我們堅定認為,人工智能正在加速從數(shù)字世界走向物理世界,而真正的物理AGI需要的是能夠跨越不同硬件平臺的通用智能。

很多具身智能的機器人創(chuàng)業(yè)公司不具備模型研發(fā)能力,因為模型研發(fā)的成本、對人才的需求極高。智源通過開源,和更多的產(chǎn)業(yè)方合作,能夠促進整個產(chǎn)業(yè)健康有序的發(fā)展。這就是智源做跨本體通用具身模型的價值所在。

從看視頻到學技能

5.?我似乎聽到一個矛盾,您一直強調(diào)機器人模型需要泛化能力,但這需要大量數(shù)據(jù)支撐?,F(xiàn)實中具身智能數(shù)據(jù)稀缺是公認難題,智源如何解決數(shù)據(jù)量不足與泛化需求的難題?

王仲遠:具身智能目前存在循環(huán)悖論,具身能力不足限制了真機數(shù)據(jù)的采集,數(shù)據(jù)稀缺導致模型能力弱、落地難,無法進一步提升能力。破解問題的方法有很多,不同的參與方有不同的解法。比如,硬件成本越來越低,如果能夠做到幾千塊錢一臺機器人,大家買的可能性比一百萬一臺機器人的可能性大很多。

真實世界的數(shù)據(jù)很重要,但是是否足以訓練出來一個有價值的模型,這在學術界是有爭議的,仿真數(shù)據(jù)是其中一條路徑。

智源走的是大模型的路線,更多依靠的是互聯(lián)網(wǎng)數(shù)據(jù)幫助機器人學習智能。例如,今年春節(jié),我觀察一個小女孩是怎么學習的,她刷了很多短視頻,就學會了拆糖果、撕包裝紙,把5顆藍莓串在一根牙簽上,這是沒有任何大人教給她的。她通過視頻學習到可能的技能,再通過實踐即強化學習去嘗試,可能失敗了幾次繼續(xù)嘗試,最后成功完成了任務,這就是強化學習的本質(zhì)。所以,學習海量已有的數(shù)據(jù),再通過強化學習和少量真實世界的數(shù)據(jù)不斷訓練它的能力,不斷突破具身智能的發(fā)展上限,這和大模型發(fā)展路線不謀而合,基礎能力到一定程度后通過強化學習進一步激發(fā)它的智能。

6.?從互聯(lián)網(wǎng)視頻數(shù)據(jù)學習具身技能,實際效果如何?像您舉得例子,簡單的動作可以學會,但到復雜的行動時,模型還能通過這種路徑實現(xiàn)么?

王仲遠現(xiàn)在具身關注點聚焦在基礎模型的推理和深度思考的能力。

具身基礎模型意味著訓練時并不會考慮那么多任務,具體落地應用時可能針對特定的任務采集數(shù)據(jù)。

當小腦技能不那么強時,可能采集幾十條、上百條數(shù)據(jù)就能使其初步具備某種程度的泛化性。當然,理想狀態(tài)下是什么數(shù)據(jù)都不用采集就具備泛化能力,但是這個周期很更長,短期內(nèi)無法實現(xiàn)。

VLA以及真正意義上端到端具身大模型需要時間沉淀。

學習海量已有的數(shù)據(jù),再通過強化學習和少量真實世界的數(shù)據(jù)不斷訓練模型能力,有可能突破具身智能的發(fā)展瓶頸,但需要一個發(fā)展過程。

開源路線和產(chǎn)業(yè)博弈

7.?在智源大會中,智源推出SaaS平臺和MCP的產(chǎn)業(yè)價值是什么?背后呈現(xiàn)什么樣的系統(tǒng)思考?

王仲遠:跨本體具身大小腦協(xié)作框架RoboOS 2.0是全球首個具身智能Saas平臺,可實現(xiàn)無服務器一站式輕量化機器人本體部署;同時,RoboOS 2.0是全球首個支持MCP的跨本體大小腦協(xié)同框架,旨在打造具身智能領域的“應用商店”,相同型號的機器人本體可直接下載和部署不同開發(fā)者開發(fā)的小腦技能,基于RoboOS 2.0框架完成大小腦整合,小腦技能一鍵注冊無需開發(fā)適配,代碼開放量僅為原來的1/10。

相對于RoboOS 1.0,RoboOS 2.0對端到端推理鏈路進行了優(yōu)化,整體性能提升30%,全鏈路平均響應時延低至3ms以下,,端云通信效率提升了27倍;在功能層面,RoboOS 2.0新增了多本體時空記憶場景圖(Scene Graph)共享機制,支持動態(tài)環(huán)境下的實時感知與建模;同時引入多粒度任務監(jiān)控模塊,實現(xiàn)任務閉環(huán)反饋,有效提升機器人任務執(zhí)行的穩(wěn)定性與成功率。RoboOS采取的是端云協(xié)同策略,將具身大腦RoboBrain部署在云端,小腦模型部署在本體上。RoboBrain 2.0,除了7B,還有32B,模型更大,能力更強,但能夠繼續(xù)保持端云協(xié)同。當然,在一些實際場景里也需要將具身大腦部署在本體上。

8.?當前具身智能賽道上,科研機構、大廠、創(chuàng)業(yè)公司各有什么優(yōu)勢和局限?智源作為非營利科研機構,如何在這個競爭激烈的賽道中發(fā)揮獨特價值?

王仲遠智源一直有明確的定位——做高校做不了,企業(yè)不愿意做的事情,預研和探索前沿技術路徑。

僅從探索的先進性來講,智源和國內(nèi)很多科研機構以及國際大廠并沒有大的區(qū)別,也沒有明顯的劣勢,但是智源的獨特性在于,取得了原生多模態(tài)世界模型底層架構、腦科學多模態(tài)通用基礎模型的突破等。

具身智能領域,中國獨特的優(yōu)勢在于制造業(yè)、豐富的場景、政策支持,使得產(chǎn)業(yè)加速發(fā)展。智源所做的具身大模型、多模態(tài)基礎模型,都正在促進整個產(chǎn)業(yè)更快地發(fā)展。

大語言模型相比去年發(fā)展勢頭更好,模型效果更佳,這是一個相對確定的技術路線,已經(jīng)開始轉(zhuǎn)化成產(chǎn)業(yè)、場景,這都是中國的優(yōu)勢。在一些新的方向,比如多模態(tài)、世界模型,各自有特點。

9.?未來3年具身智能最可能在哪個領域產(chǎn)生突破性的規(guī)?;瘧茫?/b>

王仲遠我覺得未來3年,具身智能最可能在工業(yè)制造和服務機器人這兩個領域產(chǎn)生突破性的規(guī)?;瘧谩?/p>

從技術成熟度來看,工業(yè)場景相對更容易實現(xiàn)突破。因為工業(yè)環(huán)境相對結(jié)構化,任務相對標準化,而且對成本的承受能力更強。我們現(xiàn)在看到很多具身智能創(chuàng)業(yè)公司都在往工業(yè)方向去做,這不是偶然的。

但我要強調(diào)的是,現(xiàn)在的具身智能還處在一個相對早期的階段。我們看到很多所謂的VLA模型,它不具備泛化性,能夠在某個特定任務上做得很好,但實際上并不能夠很好地去解決其他更加泛化的任務。

具身智能要突破專用任務,到具備一定的泛化性,再到未來能夠具備各種泛化性,這是一個需要發(fā)展的過程。我們堅定認為,人工智能正在加速從數(shù)字世界走向物理世界,但這個過程需要時間的沉淀。

相關推薦