GEN-SLAM:一种用于单目SLAM的深度学习生成模型

2019-02-22

编译:Simons

图1 GEN-SLAM结构

与传统的断定式模型求条件散布p(xdep|xrgb)比较,作者使用生成模型来学习彩色图像与深度图像之间的结合分布p(xrgb, xdep),这是首次在SLAM问题中引入生成式模型。作者以为三维几何场景(深度图)及其到相机平面的二维投影(彩色图像)领有相同的隐子空间,采用变分自编码器(Variational Autoencoder, VAE)来输出彩色图像对应的深度图。如上图1所示,蓝色和橙色分别表示RGB和深度VAEs,网络中有2个编码器、2个解码器,练习过程中作者采用了如下4个重构丧失,建立联合优化。

对任何移动机器人系统来说,确定自己与四周阻碍在环境中的位置是环境感知的基本义务。通常人们使用深度相机或者Lidar来获取环境的深度信息,但都面临着一系列无奈解决的艰难,除了传感器需要巨大的打算外,高品德的激光雷达至今仍然售价高昂、而深度相机在室外光照变革的环境往往包含了难以去除的噪声。

为理解决这些问题,研究人员将目光投向了深度学习,运用生成模型实现了深度估计和定位任务,为机器人环境感知带来了全新的解决打算。来自福特的无人驾驶研究人员提出了一个基于深度学习的系统,可通过单目RGB传感器实现位姿估计跟深度估计。全体系统基于传统的多少何SLAM结果来训练,实现单个相性可以输出其在环境中的拓扑姿态,以及四处妨碍物的深度图。

研讨职员假设三维多少何场景和二维相机图像共享同一个隐含空间编码,来自这一隐空间采样的编码和基于位姿的位置条件信息能够更好的恢复出深度图,以及与环境位姿对应的RGB图。作者使用CNN网络实现拓扑地图中的定位功能,并应用条件变分自编码器来输出相机图像的深度信息,采取拓扑位置作为条件输入。最后,通过仿真和切实数据集实验作者验证了单目定位和深度估量体系的有效性。

其中四项辨别代表了rgb跟深度图自身和彼此之间的重构损失。作者认为增添位信任息作为额外标签会使得RGB到深度的转换成果更好,因此还利用了每幅图像对应的拓扑节点作为前提输入。如下图所示,给定一个判断的地位条件输入,咱们就可能天生新的RGB和深度图,如果位置信息给的不好,就会产生较为空幻的场景。



Copyright 2018-2021 香港马会现场开奖 版权所有,未经授权,禁止转载。