《電子技術應用》
您所在的位置:首頁 > 人工智能 > 業界動態 > 清華和星動紀元開源首個AIGC機器人大模型

清華和星動紀元開源首個AIGC機器人大模型

2025-05-08
來源:IT之家

5 月 7 日消息,星動紀元今日在官方公眾號上宣布,開源首個 AIGC 機器人大模型 VPP(Video Prediction Policy)。

據了解,生成式機器人大模型 VPP 由清華大學叉院的 ISRLab 和星動紀元合作開發,將視頻擴散模型的泛化能力轉移到了通用機器人操作策略中,解決了 diffusion 推理速度的問題,讓機器人實時進行未來預測和動作執行,大大提升機器人策略泛化性,并且現已全部開源,相關成果入選 ICML 2025 Spotlight。

000.png

星動紀元介紹稱,VPP 利用了大量互聯網視頻數據進行訓練,直接學習人類動作,減輕了對于高質量機器人真機數據的依賴,且可在不同人形機器人本體之間自如切換,這有望大大加速人形機器人的商業化落地。

目前 AI 大模型領域有兩種主流方法,基于自回歸的理解模型和基于擴散的生成模型,各自代表作分別為自回歸的 GPT 和生成式的 Sora:

GPT 的思路演化到具身智能領域,就是以 PI( Physical Intelligence )為代表的 VLA 技術,是從視覺語言理解模型(VLM)微調而來,擅長抽象推理和語義理解。

生成式的技術與機器人的碰撞,就誕生了 VPP 這樣的生成式機器人大模型。

000.png

然而,人工智能領域存在著著名的莫拉維克悖論(Moravec's paradox):高級推理功能反而容易(例如圍棋、數學題),下層的感知和執行反而困難(例如各種家務)。VLM 更擅長高層級的推理,而 AIGC 生成式模型更擅長細節處理。VPP 基于 AIGC 視頻擴散模型而來,在底層的感知和控制有獨特的優勢。

如圖所示,VPP 分成兩階段的學習框架,最終實現基于文本指令的視頻動作生成。第一階段利用視頻擴散模型學習預測性視覺表征;第二階段通過 Video Former 和 DiT 擴散策略進行動作學習。

1、提前預知未來:VPP 讓機器人行動前做到“心里有數”

以往機器人策略(例如:VLA 模型)往往只能根據當前觀測進行動作學習,機器人策略需要先理解指令和場景,再執行。VPP 能夠提前預知未來的場景,讓機器人“看著答案”行動,大大增強泛化能力。

VPP 視頻預測結果與機器人實際物理執行結果幾乎一致。能被視頻生成的,就能被機器人執行。

2、高頻預測和執行:VPP 讓機器人執行速度“更快一步”

AIGC 視頻擴散模型雖能生成逼真的視頻,但往往花費大量推理時間。星動紀元研究團隊發現,不需要精確地預測未來的每個像素,通過有效提取視頻模型中間層的表征,單步去噪的預測就可以蘊含大量未來信息。這讓模型預測時間小于 150ms,模型的預測頻率約 6-10hz,通過 action chunk size = 10,模型的控制頻率能超過 50Hz。

如圖所示,單步視頻擴散模型預測已經蘊含大量未來信息,足夠實現高頻預測(規劃)和執行。

3、跨本體學習:VPP 讓機器人先驗知識流通“暢通無阻”

如何利用不同本體的機器人數據是一個巨大的難題。VLA 模型只能學習不同維度的低維度 action 信息,而 VPP 可以直接學習各種形態機器人的視頻數據,不存在維度不同的問題。如果將人類本體也當作一種機器本體,VPP 也可以直接學習人類操作數據,降低數據獲取成本。同時視頻數據也包含比低維度動作更加豐富的信息,提高模型泛化能力。

VPP 能學習跨本體的豐富視頻數據,相比之下,VLA 只能學習維度不一致的低維動作信號。

4、基準測試領先:VPP 讓機器人性能“一騎絕塵”

在 Calvin ABC-D 基準測試中,實現了 4.33 的任務完成平均長度,已經接近任務的滿分 5.0。相較于先前技術,VPP 實現了 41.5% 的提升。

左圖為 Calvin ABC-D 任務的平均長度對比,右圖為 Real-World Dexterous Hand 任務的成功率對比。可以看出,VPP 方法在這兩項指標中均取得了最佳表現,在仿真環境任務完成平均長度達到 4.33,真機測試成功率為 67%,顯著優于其他方法。

5、真實世界靈巧操作:VPP 讓機器人靈巧操作“舉一反三”

在真實世界的測試中,VPP 模型展現出了良好的多任務學習能力和泛化能力。在星動紀元單臂 + 仿人五指靈巧手靈巧手 XHAND 平臺,VPP 能使用一個網絡完成 100+ 種復雜靈巧操作任務,例如抓取、放置、堆疊、倒水、工具使用等,在雙臂人形機器人平臺能完成 50+ 種復雜靈巧操作任務。

6、可解釋性與調試優化:VPP 讓機器人“透明可控”

VPP 的預測視覺表示在一定程度上是可解釋的,開發者在不通過 real-world 測試情況下,通過預測的視頻來提前發現失敗的場景和任務,進行針對性的調試和優化。

而 VLA 模型是完全端到端的模型,開發者在調試優化中需要大量真實世界的測試來找到模型漏洞,需要花費大量的時間。


Magazine.Subscription.jpg

本站內容除特別聲明的原創文章之外,轉載內容只為傳遞更多信息,并不代表本網站贊同其觀點。轉載的所有的文章、圖片、音/視頻文件等資料的版權歸版權所有權人所有。本站采用的非本站原創文章及圖片等內容無法一一聯系確認版權者。如涉及作品內容、版權和其它問題,請及時通過電子郵件或電話通知我們,以便迅速采取適當措施,避免給雙方造成不必要的經濟損失。聯系電話:010-82306118;郵箱:aet@chinaaet.com。
主站蜘蛛池模板: 免费大香伊蕉在人线国产 | 欧美 韩国 精品 另类 综合 | 91精品国产高清久久久久久91 | a一级毛片 | 久久成人综合网 | 免费看欧美一级特黄a大片一 | 黄色影视网站 | 毛片爱做的片 | 成人18在线视频播放 | a极毛片| 日韩a毛片免费全部播放完整 | 老司机精品久久最新免费 | 特黄特a级特别特级特毛片 特黄特黄aaaa级毛片免费看 | 国产日日操 | 国产一卡2卡3卡四卡网站 | 在线观看黄a大片爽爽影院免费 | 在线观看黄网站免费继续 | 最近2019年中文字幕大全视频 | 亚欧洲乱码专区视频 | 亚洲国产成人精品激情 | 久久永久免费 | 免费高清伧理片午夜伧理片 | 综合色吧 | 久久午夜夜伦鲁鲁影院 | 99精品全国免费观看视频.. | 欧美国产亚洲18 | 妇乱子伦激情 | 免费特级黄毛片 | 热久久国产欧美一区二区精品 | 中文字幕亚洲一区二区三区 | 日本中文视频 | 成人男女网18免费看 | 欧美精品国产综合久久 | 国产91精品高跟丝袜在线 | 激情综合久久 | www.国产精品视频 | 中文字幕在亚洲第一在线 | 国产中文视频 | 影音先锋2020色资源网 | aa级毛片毛片免费观看久 | 99热色|