您好,歡迎到訪!

清華團隊破解具身智慧Scaling Law,GPT時刻在即!寧德時代聯創終於出手

2024-11-12 01:34:14 2

新智元報道

編輯:編輯部 HYZ

【新智元導讀】半年兩次大融資後,這傢俱身智慧黑馬再次獲得融資!作為柏睿資本首次投資的具身智慧企業,千尋智慧不僅擁有出身自伯克利系聯創,在技術、硬體、商業化上,也讓人極有信心。

最近,我們意外發現,具身智慧領域的明星初創公司千尋智慧,悄悄完成了工商變更。

根據工商資訊顯示,本輪融資由柏睿資本獨家投資。至此,千尋智已經在半年多時間裡獲得了三次大額融資,一躍成為具身智慧領域明星公司之一。

值得一提的是,柏睿資本是寧德時代聯合創始人,副董事長李平創立的產業投資基金。

全國具身智慧領域多家明星,為何首次下場便獨獨選中了千尋智慧?

從下面這些demo中,便可窺見一斑。

仔細看,桌面上撒滿了五顏六色形狀各異的糖豆。如何將這些不同顏色和大小的物體進行分類,可不是件容易的事。

只見,在極其強大的識別和精準操作能力的加持下,千尋智慧的機器人用靈巧的手指輕鬆地將糖豆捏起,並準確地放入指定的碗裡。

(實拍原速)

不僅如此,它還可以一手拿起桌上透明的玻璃杯,一手從滿滿一筐雞蛋中抓出一個並準確無誤地放進杯中。

(實拍原速)

甚至,它還能接過手中的檔案並進行裝訂,然後再交還給人類。

在這個過程中,AI基於視覺大模型的任務理解與規劃,實現了人機互動及協同作業。

(實拍原速)

具身智慧行業,到底在卷什麼

其實,如今的具身智慧領域可謂是百花齊放,各種酷炫的演示demo層出不窮。但對於不懂的外行人來說,只能看個熱鬧,很難理解背後真正的技術邊界是怎麼樣的。

同一個動作,是提前程式設計好的,還是機器人自主完成的?機器人只能在特定的某個位置、某個光照做一件事,還是能夠真正泛化到各個條件、各個場景?

看似相差不多的demo下,背後的技術能力實則相差甚遠。

不過,對於未來的技術走向,業界的認知正在逐漸清晰——最核心的還是大腦的能力。

隨著時間的發展,可能再過一兩年,競爭就會回到這個本質,因為唯有大腦,才能決定具身智慧能在什麼場景落地。

目前,大語言模型賽道已經接近後期,投資人開始關注回報的問題,但相比之下,機器人賽道可以說才剛剛開始。尤其涉及到軟硬結合,以及整套系統的複雜度,賽道週期顯然會更長。

在這樣的背景下,柏睿資本的此次下場,顯然是經過了深思熟慮。

寧德時代聯創首次出手

自創立之初,柏睿資本就專注於人工智慧、具身智慧領域的發展,且一直非常看好這一技術將帶來的一系列變革。

具體到千尋智慧,柏睿資本看重的正是其團隊在AI、硬體、商業化三個方面的綜合優勢。

首先,針對高陽在演算法和模型方面的持續創新和產出能力,柏睿資本抱有極大的信心;其次,千尋智慧的創始團隊在硬體領域有著紮實的背景和積累;第三則是多達上百個場景、數萬臺機器人的商業化落地經驗。

作為柏睿資本投資的首傢俱身智慧企業,千尋智慧將藉助柏睿資本和背後的產投資源,快速切入市場化落地並進行具身智慧泛化性作業驗證,成為國內首家實現具身智慧商業化的公司。

把水壺裡的水倒進玻璃杯,並讓水位達到指定的刻度(實拍原速)

縱觀當下機器人領域的現狀,各種技術的理論驗證基本都已完成,但工程化卻還在起步階段。

怎樣一條途徑是最優方案,率先做到在工程上可行?

從Physical Intelligence、Skild AI等優秀的國外先行者身上,我們可以隱約窺見一條逼近真理的技術路徑。

端到端就是下一個前沿

最近,成立僅8個月的初創Physical Intelligence(Pi)釋出了一款通用機器人基礎模型π0

這個在8個機器人平臺上,完成訓練的3B模型,能夠執行各種靈巧的任務,包括洗衣服、收納整理......

與LLM不同的是,π0跨越了視覺、語言、動作(VLA),並透過訓練機器人的具身經驗中,獲得物理智慧。

它基於3B VLM完成的預訓練,隨後又根據靈巧任務(洗衣服、組裝盒子、桌面任務)進行了微調。

VLM的優勢在於能夠整合網際網路規模的語義知識和視覺理解,有助於動作預測

Pi聯創之一,也是UC伯克利副教授Sergey Levine看到,如今的機器人是一種狹隘的專家系統。比如,工業機器人透過程式設計,在裝配線上同個地點進行重複的工作。

即便是這樣簡單的行為,也需要耗費大量的人工程式設計,更不用提在複雜環境(家庭等)中的應用了。

有了大模型,就很容易讓機器人做到這點。然而這一切實現的前提是——資料。

就像人類可以憑藉經驗快速學習新技能一樣,模型也僅需少量資料,就能適應新的任務。

這便是π0的核心思想。

另一家由CMU大牛Deepak Pathak(博士出身是UC伯克利)創立的Skild AI,也遵循了同樣的技術路線。

他們打造出了一款能夠泛化的機器人基礎模型「Skild Brain」,背後用到的訓練資料是競爭對手的1000倍,可以適用到任何機器人本體和任務中。

從以上伯克利系大牛們所做的研究來看,端到端架構已成為具身智慧的主要技術路線。

無獨有偶,國內的千尋智慧也在技術路線上與這兩家美國的具身智慧頂尖初創,不謀而合。

在讀博士、博士後期間,千尋智慧團隊的首席科學家高陽,還曾與Sergey Levine和Pieter Abbeel教授展開深入合作。

尤其是,他們的模型可以在訓練過程中,同時利用監督微調、強化學習、模擬學習等技術,並將Sim2Real資料作為補充。

結果就是,剛成立半年多的千尋智慧,就已經能實現業內Top的靈巧手操作了。

(實拍原速)

伯克利系稱霸具身智慧

毫不誇張地說,UC伯克利已被公認為是最近這波具身智慧浪潮的主要發源地。而Sergey、Pieter這些教授,是當之無愧的機器人學習領域最近十年的領頭人。

同時,出身伯克利系的高徒們,如今已經在各個相關領域散作滿天星,不斷推高業界前沿的技術水平。

比如,千尋智慧聯合創始人高陽在攻讀計算機視覺博士學位期間,便是師從Trevor Darrell教授,和Deepak Pathak同組。

最近,高陽帶領團隊發現了具身智慧領域的「聖盃」——Data Scaling Laws,堪稱機器人的ChatGPT時刻。

而且,在CoRL 2024上,這項研究榮獲X-Embodiment workshop最佳論文獎!

這一方法讓機器人實現了真正的零樣本泛化,也就意味著無需任何微調,就能泛化到全新場景中,徹底改變了開發通用機器人的方式。

論文地址:https://arxiv.org/abs/2410.18647

就連谷歌DeepMind大牛Ted Xiao也對這項研究讚賞有加,稱其對機器人大模型時代具有里程碑意義。

這位具身智慧領域大咖,有著怎樣的學術背景?

2014年,高陽獲得了清華電腦科學本科學位,師從國內ML領域享有盛譽的著名學者朱軍教授。

在大二的時候,也正是深度學習(2012年)爆發之際,高陽做的了很多關於傳統ML的研究。

憑藉出色的成績,他成為了計算機系的第二位大神。

到了大三,高陽拿到了去斯坦福做交換的暑期學習資格,導師是David L. Dill教授。

本科畢業前,得益於老師的推薦信,以及自身各方面優異表現,高陽最終收穫了美國多所頂尖高校的offer。

面對這些同樣優秀的學府,他決定親赴美國實地考察,做出最適合自己的選擇。

在走訪過程中,UC伯克利給他留下了深刻的印象。作為四大名校之一,這所學校具備了濃厚的學術氛圍。

再加上,自身專攻機器學習領域的原因,UC伯克利最適合不過了。

作為一名機器學習領域的學生,他對UC伯克利格外青睞,很大程度上還因為引領ML時代技術的Michael Jordan教授的存在。

原本初到伯克利時,高陽計劃跟隨Michael Jordan開展研究。然而,再參加了幾次他的組會,並與其學生交流後,他發現Michael研究方向與自己的與其有所差異。

因為,Michael Jordan的工作更加偏重數學理論,組會多圍繞數學公式推導,這與高陽所期待的實踐導向研究路徑不盡相同。

在探索其他可能性過程中,他意外接觸到了Trevor Darrell教授的研究組。

Trevor專注於計算機視覺領域,其魅力在於直觀性——可以清晰看到輸入的圖片,觀察神經網路訓練過程,並得到視覺化結果。

值得一提的是,當時深度學習的浪潮已經持續了大約2年的時間,業界也普遍認可了這項技術的卓越性。

也是基於這些原因,更加堅定了高陽在這一方向上深耕的原因。

在他的博士生涯初期,跟隨Trevor教授做了很多在純視覺領域的研究。

直到博士二年級下學期開始,高陽的研究興趣發生了微妙的轉變。

這一轉變源於,實驗室內部一系列關於人類智慧起源的深度探討。

而令他印象深刻的是CV圈裡另一位大咖Jitendra Malik觀點:他從進化角度提出,人類智慧本質與靈巧的雙手密不可分。

正是因為擁有了精細的手部動作能力,人類才得以完成更為複雜的任務,反過來推動了大腦的進化,使得智力水平得以適應更復雜的活動需求。

再到貓狗之間對於人類指令理解力的差別,說明了狗的群居特性,使得它們溝通協調力強於貓。

最終,他們在智慧本質討論中,逐漸達成共識:機器視覺的終極發展方向,應該由具身智慧體驅動。

自然而然地,高陽開始將研究中心轉向了具身智慧領域。

他認為,具身智慧與視覺、強化學習有著密切的聯絡,這種聯絡可以類比人類的認知過程。

即透過視覺感知環境,理解周圍狀況,繼而做出相應的行為。

基於這種認識,高陽開始與Sergey Levine教授展開合作,深入去研究具身智慧的形成機制。

得益於前期在計算機視覺領域的積累,在實際研究中,高陽能夠很好地將CV技術與RL結合起來,並交出了碩果累累的成績單。

在機器人研究領域的頂級學術會議CoRL 2024中,團隊更是連中了4篇論文。

論文地址:https://arxiv.org/abs/2310.02635

論文地址:https://arxiv.org/abs/2310.08809

論文地址:https://arxiv.org/abs/2401.11439

論文地址:https://arxiv.org/abs/2406.10615

回到北美,如今頭部的具身智慧創業公司,除了Figure AI之外,創始人都屬於伯克利系。

比如,Physical Intelligence的聯創Sergey Levine,便是UC伯克利電氣工程與電腦科學系的副教授。

Pi的另一位聯創Chelsea Finn,也是UC伯克利的博士。

Skild AI的聯創Deepak Pathak,同樣是在UC伯克利獲得的博士學位,師從國際計算機視覺大師Trevor Darrell教授(曾培養了包括賈揚清在內的多位視覺領域知名學者)。

隨後,Pathak繼續在UC伯克利做博士後研究,導師是機器人學習領域的頂尖學者Pieter Abbeel——擴散模型(Sora、SD背後核心技術)的提出者之一。

爆火AI搜尋初創Perplexity AI的創始人Aravind Srinivas,以及前OpenAI聯創John Schulman,皆是他的學生。

博士研究期間,Pathak開發了一種向機器人灌輸「好奇心」方法。具體做法是,當系統無法預測其行動結果時,系統反而會因未知結果而獲得獎勵。

這種方法驅使AI去探索更多場景,並收集更多資料。

論文地址:https://pathak22.github.io/large-scale-curiosity/resources/largeScaleCuriosity2018.pdf

其實回看2014到2016年這段時間,無論機器狗還是雙足機器人,在業內的進展都比較緩慢。

雖然當時的人形機器人已經可以跑酷、跳樁,但其中使用的技術棧其實非常傳統,是基於傳統的MPC、WPC這類手工控制器去做的。

也就是說,並不是基於機器學習這條路線。

在2017年左右,Pieter Abbeel和三個學生一起創立了Covariant(原名Embodied Intelligence),可以說是體現了具身智慧的縮影。

在當年,大語言模型並沒有出現,因此即使這個公司早於時代,也依然像今天的非端到端自動駕駛一樣,技術棧並沒有特別大的進步。

而隨後大模型的出現,才終於讓具身智慧的推理能力、多模態感知融合、自主學習和知識遷移能力等得到了顯著提升,翻開了全新的篇章。

如今,具身智慧技術已經走向了深度融合和迭代最佳化的新階段。擁有技術領先性和應用場景積累的企業,將迎來大展拳腳的機會。

而千尋智慧,恰恰有著清晰的端到端技術路線,有頂尖人才、有應用場景。

具身智慧這盤大棋,接下來就看千尋智慧如何交卷了。

文章版權及轉載聲明

本站內容由互聯網用戶自發貢獻,該文觀點僅代表作者本人。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。如發現本站有涉嫌抄襲侵權/違法違規的內容,請發送郵件至舉報,壹經查實,本站將立刻刪除。