您现在的位置是:首页 > AR/VR >
IDAR光学3D距离传感器已在机器人技术中得到广泛应用
来源:互联网
诸如RGB-D摄像头和LIDAR等光学3D距离传感器已在机器人技术中得到广泛应用,并正在为从无人驾驶汽车到自动操纵器的一系列应用生成丰富准确的环境3D映射。然而,诸如玻璃容器这样的透明对象会造成昂贵传感器的混乱。这是因为光学3D传感器是由假定所有表面均为朗伯(Lambertian)的算法驱动,即它们在所有方向均等地反射光线,从而在所有视角下产生均匀的表面亮度。但是,透明对象违反了这一假设,因为它们的表面既折射又反射光线。所以,来自透明对象的大多数深度数据一般为无效,或包含不可预测的噪点。
光学3D传感器通常难以检测透明对象。例如,玻璃瓶没有出现在英特尔实感D415 RGB-D摄像头捕获的3D深度图像之中(上方静态图);下方动图:根据深度图像和点云方法构建的3D可视化
支持机器更好地感知透明表面,这不仅可以提高安全性,而且能够在非结构化应用中开启一系列全新的交互,如可以处理厨具或分类塑料以进行回收利用的机器人,导航室内环境,或在玻璃桌面生成AR可视化效果等等。
为了解决这个问题,谷歌与Synthesis AI和哥伦比亚大学的研究人员合作开发了名为ClearGrasp的机器学习算法。据介绍,它能够根据RGB-D图像估计透明对象的精确3D数据。这主要得益于一个大规模合成数据集(谷歌日前同样进行了公开)。ClearGrasp可以配合所有标准RGB-D摄像头,然后使用深度学习来准确地重建透明对象的深度,并泛化为训练期间不可见的全新对象。作为对比,以前的方法需要事先理解透明对象,并且通常需要结合背景照明的映射和摄像头位置。在这项研究中,谷歌同时演示了将ClearGrasp集成到拾取和放置式机器人的控制系统中。谷歌表示,他们留意到透明塑料对象的抓取成功率有了显著提高。
ClearGrasp使用深度学习来恢复透明表面的准确3D深度数据。
1. 透明对象的可视数据集
要训练有效的深度学习模型(如用于视觉的ImageNet或用于BERT的Wikipedia),你需要大量的数据。ClearGrasp也不例外。遗憾的是,我们缺乏透明对象的3D数据集。诸如Matterport3D或ScanNet这样的现有3D数据集会忽略透明表面,因为它们需要昂贵且耗时的标记过程。
为解决此问题,研发团队自行构建了透明对象的大规模数据集,其中包含50000多个具有相应表面法线(表示表面曲率),分割蒙版,边缘和深度的图片真实感渲染,并可用于训练各种2D和3D检测任务。每个图像最多包含五个透明对象,而它们要么位于平坦的地平面之上或手提袋之内,并且具有不同的背景和照明。
ClearGrasp合成数据集中的透明对象的示例数据。
研究人员同时纳入了包含286张真实世界图像的测试集,而它们具有相应的ground truth深度。对于真实世界图像,团队将场景中的每个透明对象替换为具有相同姿态的绘制对象。图像是在各种不同的室内照明条件下并使用各种布料和贴面背景捕获,并且包含散布在场景周围的不透明对象。它们既包括合成训练集中存在的已知对象,又包含新的对象。
左:现实世界中的图像捕获设置;中:可以用喷涂副本精确替换每个透明对象;右:捕获数据的示例。
2. 挑战
通过透明对象看到的扭曲背景视图会混淆典型的深度估计方法,但存在暗示对象形状的线索。透明表面会出现镜面反射,并在光线充足的环境中显示为亮点。由于这种视觉提示在RGB图像中十分明显,并且主要受对象形状的影响,所以卷积神经网络可以利用反射来推断出精确的表面法线,然后再将其用于深度估计。
透明对象的镜面反射会创建不同的特征(特征会根据对象的形状而变化),并提供强大的视觉提示来帮助估计表面法线。
大多数机器学习算法都尝试直接根据单眼RGB图像估计深度。但即便是人类,单眼深度估计都是一项艰巨的任务。我们在估计平坦背景表面的深度时会观察到较大的误差,这加深了放置于其上的透明对象的深度估计误差。所以,研究人员认为与其直接估计所有几何图形的深度,不如更正来自RGB-D 3D摄像头的初始深度估计值,这将允许他们使用非透明表面的深度来确定透明表面的深度。
3. ClearGrasp算法
ClearGrasp使用3个神经网络:一个用于估计表面法线的网络,一个用于遮挡边界(深度不连续)的网络,另一个用于遮盖透明对象的网络。遮罩用于删除属于透明对象的所有像素,以便能够填充正确的深度。然后团队使用了全局优化模块,使用预测的表面发现来引导重建的形状,以及使用预测的遮挡边界来保持不同对象之间的分离。
团队提出的方法的综述。点云是使用输出深度生成并用表面法线着色。
每个神经网络都利用合成数据集进行训练,而它们能够很好地处理真实世界的透明对象。但是,诸如如墙壁或水果等表面的表面法线估计糟糕。这是由于合成数据集的局限性:仅包含位于地面地透明对象。为了应对这个问题,团队在表面法线训练循环中纳入了来自Matterport3D和ScanNet数据集的真实室内场景。通过域内合成数据集和域外实词数据集的训练,模型在测试集中的所有表面均取得出色的表现。
根据真实图像的表面法线预测:a 仅Matterport3D和ScanNet(MP + SN);b 仅合成数据集;c MP + SN以及合成数据集。注意,通过MP + SN训练的模型无法检测透明对象。仅根据合成数据训练的模型可以很好地拾取真实塑料瓶,但对其他对象和表面的效果不理想。当通过两者进行训练时,模型可以同时兼顾两个方面。
4. 结果
总体而言,团队的定量实验表明,ClearGrasp能够以比其他方法高得多的保真度来重建透明对象深度。尽管仅就合成的透明对象接受过训练,但团队发现模型能够很好地适应现实世界域,在不同域的已知对象方面实现了非常相似的定量重建性能。模型同时可以很好地推广到具有复杂形状的新对象。
为了确定ClearGrasp的定性性能,团队根据输入和输出深度图像构造3D点云,如下所示。生成的估计3D表面具有清晰且连贯的重构形状(这对于诸如3D映射和3D对象检测的应用而言非常重要),没有单眼深度估计方法中出现的锯齿噪点。模型十分稳定,并且在挑战性条件下都取得出色的表现,如识别位于带图案背景中的透明对象,或区分部分遮挡的透明对象。
真实图像的定性结果。前两行:已知对象的结果;下两行:新对象的结果。用表面法线着色的点云是根据对应的深度图像生成。
最重要的是,ClearGrasp的输出深度可以直接用作利用RGB-D图像的操作算法的输入。通过使用ClearGrasp的输出深度估算值而非原始传感器数据,UR5机械臂的抓取算法在抓取透明对象的成功率方面取得了显著提升。在使用抓爪时,成功率从基线的12%提高到74%,而抽吸的成功率则从64%提高到86%。
使用ClearGrasp处理新透明对象。请注意具有挑战性的条件:无纹理背景,复杂的对象形状,以及定向光会导致混乱的阴影和焦散。
5. 局限与未来的研究方向
谷歌指出,合成数据集的局限性在于,由于传统路径追踪算法的渲染存在局限性,所以它不能代表精确的焦散。结果是,模型将明亮的焦散与阴影混淆为独立的透明对象。尽管存在这样的缺点,但ClearGrasp的研究表明,合成数据依然是一种可行的方法,可以帮助基于学习的深度重建方法取得令人满意的结果。对于未来的研究,一个充满前景的方向是通过生成具有物理正确的焦散和表面缺陷的渲染来改善域转真实世界图像。
对于ClearGrasp,团队证明了高质量的渲染可用于成功训练在现实世界中表现出色的模型。谷歌表示,他们希望数据集将推动业界进一步研究针对透明对象的数据驱动感知算法。下载链接和示例图像请前往谷歌的项目官网和GitHub页面。
热点推荐
- · 看看在黑暗中发光的三菱Evo汽车
Dip Your Car进行了一项实验,将三菱Evo转变为夜光汽车,其结果发布在同名的YouTube频道上。事实证明,将荧光漆涂在具有光亮层的身体上并
- · Memoji现在可以在最新的苹果iOS 1...
我认为这是我们只能与Emojis聊天的时候了,您的朋友仍然会理解您要说的话。如今,随着疯狂的表情符号数量的增加,您可以从表情符号选项卡中
- · 联想使用高通Snapdragon 865制造...
根据在weibo com上发布的图像,看来联想可能会推出自己的游戏智能手机,该智能手机将配备高通公司的顶级Snapdragon 865芯片组。此外,发布
- · 新消息确认荣耀X50Pro5G智能手机的...
昨天,realme宣布将在线发布 realme X50 Pro 5G。但很明显,该公司无意放弃这种戏弄,最新消息证实该智能手机的显示屏将具有90Hz的刷新
- · 谷歌Pixel5XL原型设计的泄漏渲染看...
如果相信消息来源,谷歌似乎已经开始开发下一代Pixel智能手机。当然,有关Pixel 5的传言还为时过早,但这次我们确实在这方面有一些消息。
- · 苹果希望为其5G iPhone使用内部设...
在日历达到2020年之前,已经很明显,今年将是5G设备的一年。许多公司都从其他制造商那里购买了用于智能手机的5G天线,但是苹果似乎并不打算
- · 泄漏的渲染图表明三星正在开发Gala...
三星Unpacked 2020大会上的一大亮点可能让那些喜欢高端旗舰产品的人流口水,但三星为智能手机市场的其他细分市场提供了充足的保护。如果可
- · 在2020年亚马逊Prime Day期间可获...
亚马逊2020年Prime Day为各种耳机带来了很多优惠,包括索尼的新型WH-1000XM4无线耳挂式耳机,该耳机具有市场上最好的噪音消除功能。这套特
- · 索尼最好的降噪耳机在Prime Day上...
如果您从Verge链接购买商品,Vox Media可能会赚取佣金。请参阅我们的道德声明。2020年黄金日的第二天也是最后一天,但接下来的几个小时仍
- · Spotify现在拥有自己的iOS 14小部件
自iOS 14发布以来的几周内,越来越多的应用程序在增加新功能,以利用Apple最新更新中的功能。现在,Spotify也加入了。今天,领先的订阅音
- · 苹果TV应用程序出现在Sony的一些最...
如果您从Verge链接购买商品,Vox Media可能会赚取佣金。请参阅我们的道德声明。苹果的Apple TV应用程序首次进入了Android TV。索尼宣布
- · 宏G支持G-Sync的27英寸4K 144Hz游...
如果您从Verge链接购买商品,Vox Media可能会赚取佣金。请参阅我们的道德声明。宏A在亚马逊上的27英寸4K Predator游戏显示器的闪电交易持
- · 谷歌Glass正在添加Meet 以便远程...
您可能已经有一段时间没有考虑过Google Glass了,但其抬头显示器的企业版却有了一个巧妙的新技巧:它将能够使用Google Meet(以前称为Hang
- · 贝尔金的首批MagSafe产品是外观精...
苹果公司新的MagSafe配件生态系统还没有建立一天,但是Belkin已经开始使用新的使用磁性充电系统的充电配件,并推出了新的BoostCharge Pro
- · 谷歌的新手势系统将可用于所有Pixel设备
除了触摸屏幕或按下按钮外,我们还有许多其他方式可以与智能手机进行交互。借助最新的Google Pixel 4 系列的Motion Sense ,我们可以
- · 华为于2020年推出其6nm麒麟820 5G芯片
华为最近宣布,他们可能会推出新的麒麟820 5G芯片组,该芯片组将在2020年2月24日晚上9点举行的在线会议上揭晓。根据gizchina com的声明,
- · 华为将开发一款具有多达8个摄像头...
最近花姐发现有诸多的小伙伴们对于华为将开发一款具有多达8个摄像头传感器的智能手机吗这个问题都颇为感兴趣的,大家也都想要及时了解到华
- · 配备64MP AI Quad相机的荣耀6系...
realme在其官方网站上发布了一张图片,其中提到realme 6系列(包括realme 6以及Pro变体)将于2020年3月5日发布。虽然关于上述智能手机的完
- · 未来的智能手机会使用用户可更换的...
根据fd nl上的一份报告,看来欧盟正在制定一项提案,要求智能手机具有用户可更换的电池。这是由于以下事实:用户通常将旧的智能手机换成较
- · FlyPods 3是HONOR为您呈现的全新...
除了HONOR View 30 Pro 和HONOR 9X Pro,HONOR在巴塞罗那举行的发布会上也给我们带来了另一个惊喜。该公司已经宣布了名为HONOR FlyP
点击排行
- · 谷歌Pixel5XL原型设计的泄漏渲染看...
如果相信消息来源,谷歌似乎已经开始开发下一代Pixel智能手机。当然,有关Pixel 5的传言还为时过早,但这次我们确实在这方面有一些消息。
- · 保险科技彰显价值 开启保险行业新纪元
从渠道变革、场景创造,再到科技重构,保险科技改变了传统保险行业的认知,催生了新的保险需求、重塑了保险价值链、孕育了保险生态系统。保
- · 比特币狂飙十几倍 核心推手或是日...
[ 亿欧导读 ] 全球最大比特币交易平台日本bitFlyer CEO称,平台上有多达75%的投机客购买衍生品,动用杠杆高达15倍;以日元交易的比特币
- · 多家上市公司退出筹备民营银行热情...
民营银行的申报热情有所降温。近日,亚宝药业发布公告称,全体拟出资人商议决定终止筹建山西同昌银行的相关工作,并因此被媒体质疑。为此,
- · 互联网上奇葩险种频现假保单屡禁不绝
有些流量平台假借保险之名非法集资,或撒出高额回报的诱饵,或伪造保单,骗取消费者资金。这些平台并不具备保险代理资格,按规定只能为保险
- · 移动互联网时代价值创造的8大变化...
【编者按】本文为肖风的公开演讲速记,肖风系中国万向控股有限公司副董事长兼执行董事、民生人寿保险股份有限公司副董事长、万向信托有限公