您好，歡迎到訪!

清華團隊破解具身智慧Scaling Law，GPT時刻在即！寧德時代聯創終於出手

2024-11-12 01:34:14 2

新智元報道

編輯：編輯部 HYZ

【新智元導讀】半年兩次大融資後，這傢俱身智慧黑馬再次獲得融資！作為柏睿資本首次投資的具身智慧企業，千尋智慧不僅擁有出身自伯克利系聯創，在技術、硬體、商業化上，也讓人極有信心。

最近，我們意外發現，具身智慧領域的明星初創公司千尋智慧，悄悄完成了工商變更。

根據工商資訊顯示，本輪融資由柏睿資本獨家投資。至此，千尋智已經在半年多時間裡獲得了三次大額融資，一躍成為具身智慧領域明星公司之一。

值得一提的是，柏睿資本是寧德時代聯合創始人，副董事長李平創立的產業投資基金。

全國具身智慧領域多家明星，為何首次下場便獨獨選中了千尋智慧？

從下面這些demo中，便可窺見一斑。

仔細看，桌面上撒滿了五顏六色形狀各異的糖豆。如何將這些不同顏色和大小的物體進行分類，可不是件容易的事。

只見，在極其強大的識別和精準操作能力的加持下，千尋智慧的機器人用靈巧的手指輕鬆地將糖豆捏起，並準確地放入指定的碗裡。

（實拍原速）

不僅如此，它還可以一手拿起桌上透明的玻璃杯，一手從滿滿一筐雞蛋中抓出一個並準確無誤地放進杯中。

（實拍原速）

甚至，它還能接過手中的檔案並進行裝訂，然後再交還給人類。

在這個過程中，AI基於視覺大模型的任務理解與規劃，實現了人機互動及協同作業。

（實拍原速）

具身智慧行業，到底在卷什麼

其實，如今的具身智慧領域可謂是百花齊放，各種酷炫的演示demo層出不窮。但對於不懂的外行人來說，只能看個熱鬧，很難理解背後真正的技術邊界是怎麼樣的。

同一個動作，是提前程式設計好的，還是機器人自主完成的？機器人只能在特定的某個位置、某個光照做一件事，還是能夠真正泛化到各個條件、各個場景？

看似相差不多的demo下，背後的技術能力實則相差甚遠。

不過，對於未來的技術走向，業界的認知正在逐漸清晰——最核心的還是大腦的能力。

隨著時間的發展，可能再過一兩年，競爭就會回到這個本質，因為唯有大腦，才能決定具身智慧能在什麼場景落地。

目前，大語言模型賽道已經接近後期，投資人開始關注回報的問題，但相比之下，機器人賽道可以說才剛剛開始。尤其涉及到軟硬結合，以及整套系統的複雜度，賽道週期顯然會更長。

在這樣的背景下，柏睿資本的此次下場，顯然是經過了深思熟慮。

寧德時代聯創首次出手

自創立之初，柏睿資本就專注於人工智慧、具身智慧領域的發展，且一直非常看好這一技術將帶來的一系列變革。

具體到千尋智慧，柏睿資本看重的正是其團隊在AI、硬體、商業化三個方面的綜合優勢。

首先，針對高陽在演算法和模型方面的持續創新和產出能力，柏睿資本抱有極大的信心；其次，千尋智慧的創始團隊在硬體領域有著紮實的背景和積累；第三則是多達上百個場景、數萬臺機器人的商業化落地經驗。

作為柏睿資本投資的首傢俱身智慧企業，千尋智慧將藉助柏睿資本和背後的產投資源，快速切入市場化落地並進行具身智慧泛化性作業驗證，成為國內首家實現具身智慧商業化的公司。

把水壺裡的水倒進玻璃杯，並讓水位達到指定的刻度（實拍原速）

縱觀當下機器人領域的現狀，各種技術的理論驗證基本都已完成，但工程化卻還在起步階段。

怎樣一條途徑是最優方案，率先做到在工程上可行？

從Physical Intelligence、Skild AI等優秀的國外先行者身上，我們可以隱約窺見一條逼近真理的技術路徑。

端到端就是下一個前沿

最近，成立僅8個月的初創Physical Intelligence（Pi）釋出了一款通用機器人基礎模型π₀。

這個在8個機器人平臺上，完成訓練的3B模型，能夠執行各種靈巧的任務，包括洗衣服、收納整理......

與LLM不同的是，π₀跨越了視覺、語言、動作（VLA），並透過訓練機器人的具身經驗中，獲得物理智慧。

它基於3B VLM完成的預訓練，隨後又根據靈巧任務（洗衣服、組裝盒子、桌面任務）進行了微調。

VLM的優勢在於能夠整合網際網路規模的語義知識和視覺理解，有助於動作預測

Pi聯創之一，也是UC伯克利副教授Sergey Levine看到，如今的機器人是一種狹隘的專家系統。比如，工業機器人透過程式設計，在裝配線上同個地點進行重複的工作。

即便是這樣簡單的行為，也需要耗費大量的人工程式設計，更不用提在複雜環境（家庭等）中的應用了。

有了大模型，就很容易讓機器人做到這點。然而這一切實現的前提是——資料。

就像人類可以憑藉經驗快速學習新技能一樣，模型也僅需少量資料，就能適應新的任務。

這便是π₀的核心思想。

另一家由CMU大牛Deepak Pathak（博士出身是UC伯克利）創立的Skild AI，也遵循了同樣的技術路線。

他們打造出了一款能夠泛化的機器人基礎模型「Skild Brain」，背後用到的訓練資料是競爭對手的1000倍，可以適用到任何機器人本體和任務中。

從以上伯克利系大牛們所做的研究來看，端到端架構已成為具身智慧的主要技術路線。

無獨有偶，國內的千尋智慧也在技術路線上與這兩家美國的具身智慧頂尖初創，不謀而合。

在讀博士、博士後期間，千尋智慧團隊的首席科學家高陽，還曾與Sergey Levine和Pieter Abbeel教授展開深入合作。

尤其是，他們的模型可以在訓練過程中，同時利用監督微調、強化學習、模擬學習等技術，並將Sim2Real資料作為補充。

結果就是，剛成立半年多的千尋智慧，就已經能實現業內Top的靈巧手操作了。

（實拍原速）

伯克利系稱霸具身智慧

毫不誇張地說，UC伯克利已被公認為是最近這波具身智慧浪潮的主要發源地。而Sergey、Pieter這些教授，是當之無愧的機器人學習領域最近十年的領頭人。

同時，出身伯克利系的高徒們，如今已經在各個相關領域散作滿天星，不斷推高業界前沿的技術水平。

比如，千尋智慧聯合創始人高陽在攻讀計算機視覺博士學位期間，便是師從Trevor Darrell教授，和Deepak Pathak同組。

最近，高陽帶領團隊發現了具身智慧領域的「聖盃」——Data Scaling Laws，堪稱機器人的ChatGPT時刻。

而且，在CoRL 2024上，這項研究榮獲X-Embodiment workshop最佳論文獎！

這一方法讓機器人實現了真正的零樣本泛化，也就意味著無需任何微調，就能泛化到全新場景中，徹底改變了開發通用機器人的方式。

論文地址：https://arxiv.org/abs/2410.18647

就連谷歌DeepMind大牛Ted Xiao也對這項研究讚賞有加，稱其對機器人大模型時代具有里程碑意義。

這位具身智慧領域大咖，有著怎樣的學術背景？

2014年，高陽獲得了清華電腦科學本科學位，師從國內ML領域享有盛譽的著名學者朱軍教授。

在大二的時候，也正是深度學習（2012年）爆發之際，高陽做的了很多關於傳統ML的研究。

憑藉出色的成績，他成為了計算機系的第二位大神。

到了大三，高陽拿到了去斯坦福做交換的暑期學習資格，導師是David L. Dill教授。

本科畢業前，得益於老師的推薦信，以及自身各方面優異表現，高陽最終收穫了美國多所頂尖高校的offer。

面對這些同樣優秀的學府，他決定親赴美國實地考察，做出最適合自己的選擇。

在走訪過程中，UC伯克利給他留下了深刻的印象。作為四大名校之一，這所學校具備了濃厚的學術氛圍。

再加上，自身專攻機器學習領域的原因，UC伯克利最適合不過了。

作為一名機器學習領域的學生，他對UC伯克利格外青睞，很大程度上還因為引領ML時代技術的Michael Jordan教授的存在。

原本初到伯克利時，高陽計劃跟隨Michael Jordan開展研究。然而，再參加了幾次他的組會，並與其學生交流後，他發現Michael研究方向與自己的與其有所差異。

因為，Michael Jordan的工作更加偏重數學理論，組會多圍繞數學公式推導，這與高陽所期待的實踐導向研究路徑不盡相同。

在探索其他可能性過程中，他意外接觸到了Trevor Darrell教授的研究組。

Trevor專注於計算機視覺領域，其魅力在於直觀性——可以清晰看到輸入的圖片，觀察神經網路訓練過程，並得到視覺化結果。

值得一提的是，當時深度學習的浪潮已經持續了大約2年的時間，業界也普遍認可了這項技術的卓越性。

也是基於這些原因，更加堅定了高陽在這一方向上深耕的原因。

在他的博士生涯初期，跟隨Trevor教授做了很多在純視覺領域的研究。

直到博士二年級下學期開始，高陽的研究興趣發生了微妙的轉變。

這一轉變源於，實驗室內部一系列關於人類智慧起源的深度探討。

而令他印象深刻的是CV圈裡另一位大咖Jitendra Malik觀點：他從進化角度提出，人類智慧本質與靈巧的雙手密不可分。

正是因為擁有了精細的手部動作能力，人類才得以完成更為複雜的任務，反過來推動了大腦的進化，使得智力水平得以適應更復雜的活動需求。

再到貓狗之間對於人類指令理解力的差別，說明了狗的群居特性，使得它們溝通協調力強於貓。

最終，他們在智慧本質討論中，逐漸達成共識：機器視覺的終極發展方向，應該由具身智慧體驅動。

自然而然地，高陽開始將研究中心轉向了具身智慧領域。

他認為，具身智慧與視覺、強化學習有著密切的聯絡，這種聯絡可以類比人類的認知過程。

即透過視覺感知環境，理解周圍狀況，繼而做出相應的行為。

基於這種認識，高陽開始與Sergey Levine教授展開合作，深入去研究具身智慧的形成機制。

得益於前期在計算機視覺領域的積累，在實際研究中，高陽能夠很好地將CV技術與RL結合起來，並交出了碩果累累的成績單。

在機器人研究領域的頂級學術會議CoRL 2024中，團隊更是連中了4篇論文。

論文地址：https://arxiv.org/abs/2310.02635

論文地址：https://arxiv.org/abs/2310.08809

論文地址：https://arxiv.org/abs/2401.11439

論文地址：https://arxiv.org/abs/2406.10615

回到北美，如今頭部的具身智慧創業公司，除了Figure AI之外，創始人都屬於伯克利系。

比如，Physical Intelligence的聯創Sergey Levine，便是UC伯克利電氣工程與電腦科學系的副教授。

Pi的另一位聯創Chelsea Finn，也是UC伯克利的博士。

Skild AI的聯創Deepak Pathak，同樣是在UC伯克利獲得的博士學位，師從國際計算機視覺大師Trevor Darrell教授（曾培養了包括賈揚清在內的多位視覺領域知名學者）。

隨後，Pathak繼續在UC伯克利做博士後研究，導師是機器人學習領域的頂尖學者Pieter Abbeel——擴散模型（Sora、SD背後核心技術）的提出者之一。

爆火AI搜尋初創Perplexity AI的創始人Aravind Srinivas，以及前OpenAI聯創John Schulman，皆是他的學生。

博士研究期間，Pathak開發了一種向機器人灌輸「好奇心」方法。具體做法是，當系統無法預測其行動結果時，系統反而會因未知結果而獲得獎勵。

這種方法驅使AI去探索更多場景，並收集更多資料。

論文地址：https://pathak22.github.io/large-scale-curiosity/resources/largeScaleCuriosity2018.pdf

其實回看2014到2016年這段時間，無論機器狗還是雙足機器人，在業內的進展都比較緩慢。

雖然當時的人形機器人已經可以跑酷、跳樁，但其中使用的技術棧其實非常傳統，是基於傳統的MPC、WPC這類手工控制器去做的。

也就是說，並不是基於機器學習這條路線。

在2017年左右，Pieter Abbeel和三個學生一起創立了Covariant（原名Embodied Intelligence），可以說是體現了具身智慧的縮影。

在當年，大語言模型並沒有出現，因此即使這個公司早於時代，也依然像今天的非端到端自動駕駛一樣，技術棧並沒有特別大的進步。

而隨後大模型的出現，才終於讓具身智慧的推理能力、多模態感知融合、自主學習和知識遷移能力等得到了顯著提升，翻開了全新的篇章。

如今，具身智慧技術已經走向了深度融合和迭代最佳化的新階段。擁有技術領先性和應用場景積累的企業，將迎來大展拳腳的機會。

而千尋智慧，恰恰有著清晰的端到端技術路線，有頂尖人才、有應用場景。

具身智慧這盤大棋，接下來就看千尋智慧如何交卷了。

本文標籤清華團隊破解具身智慧 scaling law gpt 時刻在即寧德時代聯創終於出手

文章版權及轉載聲明

本站內容由互聯網用戶自發貢獻，該文觀點僅代表作者本人。本站僅提供信息存儲空間服務，不擁有所有權，不承擔相關法律責任。如發現本站有涉嫌抄襲侵權/違法違規的內容,請發送郵件至舉報，壹經查實，本站將立刻刪除。

這個雙十一，用AI的賣家領先了麼？

« 上一篇 2024-11-12

訊息稱亞馬遜正為快遞員開發智慧眼鏡，提升“最後一公里”配送效率

2024-11-12 下一篇 »

清華團隊破解具身智慧Scaling Law，GPT時刻在即！寧德時代聯創終於出手

最近發布

隨便看看

熱門標簽

關于我們

清華團隊破解具身智慧Scaling Law，GPT時刻在即！寧德時代聯創終於出手

相關文章

最近發布

隨便看看

熱門標簽

關于我們