使用语言让机器人更好地掌握开放世界
想象一下,您正在国外拜访一位朋友,您查看了他们的冰箱,看看有什么可以做一顿丰盛的早餐。许多物品一开始对您来说都是陌生的,每一件物品都装在不熟悉的包装和容器中。尽管存在这些视觉上的区别,您还是开始了解每一种的用途,并根据需要选择它们。
受人类处理不熟悉物体的能力的启发,麻省理工学院计算机科学与人工智能实验室(CSAIL)的一个团队设计了机器人操纵特征场(F3RM),这是一个将2D图像与基础模型特征混合到3D场景中的系统,以帮助机器人识别并抓住附近的物品。F3RM可以解释人类的开放式语言提示,使得该方法在包含数千个对象(例如仓库和家庭)的现实环境中很有用。
F3RM为机器人提供了使用自然语言解释开放式文本提示的能力,帮助机器操纵物体。因此,机器可以理解人类不太具体的请求,并仍然完成所需的任务。例如,如果用户要求机器人“拿起一个高杯子”,机器人可以找到并抓取最适合该描述的物品。
美国国家科学基金会人工智能与基础交互研究所和麻省理工学院CSAIL的博士后GeYang表示:“制造能够真正在现实世界中进行泛化的机器人非常困难。”“我们真的很想弄清楚如何做到这一点,因此通过这个项目,我们试图推动泛化的积极水平,从三四个物体到我们在麻省理工学院Stata中心找到的任何东西。我们想学习如何制作机器人和我们一样灵活,因为我们可以抓住并放置物体,即使我们以前从未见过它们。”
学习“通过观察发现什么”
该方法可以帮助机器人在大型配送中心拣选不可避免的混乱和不可预测的物品。在这些仓库中,机器人通常会收到需要识别的库存描述。无论包装如何变化,机器人都必须匹配提供给物体的文本,以便正确运送客户的订单。
例如,主要在线零售商的履行中心可能包含数百万件商品,其中许多是机器人以前从未遇到过的。为了在如此大规模的情况下运行,机器人需要理解不同物品的几何形状和语义,其中一些物品位于狭小的空间内。凭借F3RM先进的空间和语义感知能力,机器人可以更有效地定位物体、将其放入垃圾箱,然后将其发送进行包装。最终,这将帮助工厂工人更有效地运送客户的订单。
“F3RM经常让人们感到惊讶的一件事是,同一系统也适用于房间和建筑规模,并且可用于构建机器人学习和大型地图的模拟环境,”杨说。“但在我们进一步扩大这项工作之前,我们希望首先让这个系统运行得非常快。这样,我们就可以使用这种类型的表示来执行更动态的机器人控制任务,希望是实时的,以便机器人能够处理更多的任务动态任务可以用它来进行感知。”
麻省理工学院的团队指出,F3RM理解不同场景的能力可以使其在城市和家庭环境中发挥作用。例如,该方法可以帮助个性化机器人识别并拾取特定物品。该系统帮助机器人从物理上和感知上掌握周围环境。
“视觉感知被DavidMarr定义为‘通过观察知道什么在哪里’的问题,”资深作者、麻省理工学院电气工程和计算机科学副教授兼CSAIL首席研究员PhillipIsola说。
“最近的基础模型非常擅长了解它们所看到的内容;它们可以识别数千个对象类别并提供图像的详细文本描述。同时,辐射场非常擅长表示物体在场景中的位置.这两种方法的组合可以创建3D中的位置表示,我们的工作表明,这种组合对于需要在3D中操纵对象的机器人任务特别有用。”
创建“数字孪生”
F3RM开始通过使用自拍杆拍照来了解周围的环境。安装的相机以不同姿势拍摄50张图像,使其能够构建神经辐射场(NeRF),这是一种利用2D图像构建3D场景的深度学习方法。这张RGB照片拼贴画以360度展示附近事物的形式创建了周围环境的“数字双胞胎”。
除了高度详细的神经辐射场之外,F3RM还构建了一个特征场,以通过语义信息增强几何形状。该系统使用CLIP,这是一种经过数亿图像训练的视觉基础模型,可以有效地学习视觉概念。通过重建自拍杆拍摄图像的2DCLIP特征,F3RM有效地将2D特征提升为3D表示。
保持事情的开放性
在接受了几次演示后,机器人应用其所了解的几何和语义知识来抓取以前从未遇到过的物体。一旦用户提交文本查询,机器人就会搜索可能的抓取空间,以识别那些最有可能成功拾取用户请求的物体的人。每个潜在选项的评分基于其与提示的相关性、与机器人所接受训练的演示的相似性以及是否会导致任何碰撞。然后选择并执行得分最高的抓握。
为了证明系统解释人类开放式请求的能力,研究人员提示机器人拿起迪士尼《超级英雄6》中的角色大白。虽然F3RM从未接受过捡起卡通超级英雄玩具的直接训练,但该机器人利用基础模型中的空间意识和视觉语言特征来决定抓握哪个物体以及如何捡起它。
F3RM还允许用户指定他们希望机器人在不同语言细节级别处理的对象。例如,如果有一个金属杯和一个玻璃杯,用户可以向机器人询问“玻璃杯”。如果机器人看到两个玻璃杯,其中一个装满咖啡,另一个装满果汁,则用户可以要求“装有咖啡的玻璃杯”。嵌入特征字段中的基础模型特征实现了这种级别的开放式理解。
“如果我向一个人展示如何用嘴唇拿起杯子,他们可以轻松地将这些知识转移到拿起具有相似几何形状的物体,例如碗、量杯,甚至卷带。对于机器人来说,达到这种水平的适应性相当具有挑战性,”麻省理工学院博士说。学生、CSAIL附属机构和联合主要作者WilliamShen。
“F3RM将几何理解与基于互联网规模数据训练的基础模型的语义相结合,只需少量演示即可实现这种程度的积极概括。”
论文“DistilledFeatureFieldsEnableFew-ShotLanguage-GuidedManipulation”已发布在arXiv预印本服务器上。
免责声明:本文由用户上传,与本网站立场无关。财经信息仅供读者参考,并不构成投资建议。投资者据此操作,风险自担。 如有侵权请联系删除!
-
作为A股市场中极具代表性的黄金珠宝行业龙头企业,作为中国历史最悠久的珠宝品牌之一,老凤祥(股票代码:600612)...浏览全文>>
-
宝子们,杭州 房子装修完成啦!这次要给大家分享几家设计超赞的装修公司哦。它们各具特色,从空间规划到风格...浏览全文>>
-
欲筑室者,先治其基。在上海,装修房子对于每个业主而言,都是极为关键的一步,然而,如何挑选一家值得信赖的...浏览全文>>
-
2025年以来,联通支付严格贯彻落实国家战略部署,以数字和科技为驱动,做好金融五篇大文章,履行支付为民社会...浏览全文>>
-
良工巧匠,方能筑就华居;精雕细琢,方可打造美家。当我们谈论装修公司时,选择一家靠谱可靠的公司是至关重要...浏览全文>>
-
在当今社会,随着城市化进程的高速推进,建筑垃圾的产生量与日俱增。据权威数据显示,我国每年建筑垃圾产生量超 ...浏览全文>>
-
家人们,在上海要装修,选对公司那可太重要了!古语有云:"安得广厦千万间,大庇天下寒士俱欢颜。"一个温馨的...浏览全文>>
-
近年来,新能源汽车市场发展迅猛,各大品牌纷纷推出各具特色的车型以满足消费者多样化的需求。作为国内新能源...浏览全文>>
-
近年来,随着汽车市场的不断变化和消费者需求的升级,安徽滁州地区的宝来2025新款车型在市场上引起了广泛关注...浏览全文>>
-
随着汽车市场的不断变化,滁州地区的消费者对高尔夫车型的关注度持续上升。作为大众品牌旗下的经典车型,高尔...浏览全文>>
- 安徽滁州途安L新车报价2022款,最低售价16.68万起,入手正当时
- 小鹏G7试驾,新手必知的详细步骤
- 别克GL8预约试驾,4S店的贴心服务与流程
- 安徽阜阳ID.4 CROZZ落地价全解,买车必看的省钱秘籍
- 淮北探岳多少钱 2025款落地价,最低售价17.69万起现在该入手吗?
- 安徽淮南大众CC新款价格2025款多少钱能落地?
- 淮北长安启源C798价格,最低售价12.98万起现在该入手吗?
- 安徽淮南途锐价格,各配置车型售价全解析
- 蒙迪欧试驾预约,4S店体验全攻略
- 沃尔沃XC40试驾需要注意什么
- 滁州ID.4 X新车报价2025款,各车型售价大公开,性价比爆棚
- 试驾思域,快速操作,轻松体验驾驶乐趣
- 试驾长安CS35PLUS,一键搞定,开启豪华驾驶之旅
- 天津滨海ID.6 X落地价限时特惠,最低售价25.9888万起,错过不再有
- 天津滨海凌渡多少钱?看完这篇购车攻略再做决定
- 安徽池州长安猎手K50落地价,买车前的全方位指南
- 山东济南ID.6 CROZZ 2024新款价格,最低售价19.59万起,现车充足
- 试驾海狮05EV,新手必知的详细步骤
- 生活家PHEV多少钱 2025款落地价走势,近一个月最低售价63.98万起,性价比凸显
- 奇瑞风云A9试驾,新手必知的详细步骤