近日,Hugging Face 與Physical Intelligence 聯合推出了“Pi0”(Pi-Zero),這是首個將自然語言命令直接轉化為物理動作的基礎模型。這一創新性發布吸引了廣泛關注,Hugging Face 的首席研究科學家Remi Cadene 在社交媒體上宣布,“Pi0是最先進的視覺語言動作模型,能夠將自然語言命令轉化為自主行為。”
“Pi0” 的推出標誌著機器人領域的一次重大變革,類似於ChatGPT 在文本生成領域的影響力。該模型最初由Physical Intelligence 開發,並現已在Hugging Face 的LeRobot 平台上提供,能夠執行如折疊衣物、收拾餐桌和包裝雜貨等複雜任務,這些都是傳統機器人難以掌握的技能。
Physical Intelligence 的研究團隊表示:“當前的機器人往往是專注於重複性動作的窄域專家,而'Pi0'的推出則允許機器人通過用戶指令學習和執行任務,編程的複雜性被簡化為簡單的語音指令。”
“Pi0” 技術的核心是一項重要的技術突破。該模型通過對七種不同機器人平台和68個獨特任務的數據進行訓練,使其能夠處理從精細操作到復雜的多步驟程序等各種任務。同時,使用了一種新穎的流匹配技術,使其能夠以每秒50次的速度產生平滑、實時的動作軌跡,從而在真實世界應用中實現高度精準和適應性。
在此基礎上,開發團隊還推出了“Pi0-FAST” 版本,這一增強版模型結合了一種新的標記方案—— 頻率空間動作序列標記(FAST),使得訓練速度提高了五倍,並在不同環境和機器人類型之間的泛化能力上也有所提升。
這一技術的推出將對工業產生深遠的影響。製造企業可以通過簡單的語音指令重新編程機器人,倉庫則能夠根據需求部署更靈活的自動化系統。小型企業也將因此更加容易接入機器人技術,降低了編程和部署的門檻。
不過,儘管“Pi0” 已取得顯著進展,但仍然面臨一些挑戰。該模型在處理非常複雜的任務時有時會遇到困難,並且需要相當大的計算資源。此外,在工業環境中的可靠性和安全性問題仍然需要關注。
“Pi0” 的發布正值人工智能行業快速發展的關鍵時期,它代表了語言模型與物理世界互動之間的首次成功嘗試。隨著技術的不斷成熟,未來的機器人將變得更加對話式、適應性強且易於接入,推動機器人在家庭、醫院和小型企業等領域的廣泛應用。
pi0:https://huggingface.co/lerobot/pi0
劃重點:
Pi0是首個將自然語言命令轉化為物理動作的機器人模型,改變傳統編程方式。
該模型經過多平台、多任務訓練,能夠執行複雜的日常操作,降低機器人使用門檻。
Pi0-FAST 版本提升了訓練速度和泛化能力,有望加速工業自動化的推廣。
隨著“Pi0”技術的推出,機器人領域迎來了新的變革,未來將更加智能化和便捷化。