Copyright 2019-2026 微推堂 版權(quán)所有 京ICP備2019123967號
6月26日訊 日前,谷歌宣布推出“自家最強(qiáng)大的視覺-語言-動(dòng)作(VLA)模型”Gemini Robotics On-Device,作為一款面向雙臂(16.800, -0.19, -1.12%)的通用基礎(chǔ)模型,Gemini Robotics On-Device專為減少計(jì)算資源消耗而設(shè)計(jì)。
其具備通用靈巧操作能力和任務(wù)泛化能力,即支持靈巧操作任務(wù)的快速實(shí)驗(yàn)、可通過微調(diào)適應(yīng)新任務(wù),以提升性能。
更重要的是,這款模型可以完全在機(jī)器人設(shè)備本地離線運(yùn)行。谷歌表示,由于運(yùn)行時(shí)無需依賴數(shù)據(jù)網(wǎng)絡(luò),這一模型非常適用于對延遲敏感的應(yīng)用場景,并能在網(wǎng)絡(luò)連接不穩(wěn)定甚至完全中斷的環(huán)境中穩(wěn)定運(yùn)行——換言之,即使是在完全斷網(wǎng)的情況下,搭載這款模型的機(jī)器人設(shè)備也能做到“看得見、聽得懂、做得了”。
Gemini Robotics On-Device在多種測試場景中實(shí)現(xiàn)了強(qiáng)大的視覺、語義和行為泛化能力,能理解自然語言指令,并完成拉開拉鏈、折疊衣物等高靈巧度任務(wù)。