可训练的神经网络学习架构大幅提升LiDAR探测精度

2017-11-24 10:03

Apple（苹果）公司的研究人员一直在努力推动自动驾驶汽车能够真正驶上公共道路，上周他们发表了一篇学术论文，介绍了利用一种可训练的神经网络技术，通过3D点云实现物体探测的方法。尽管该技术目前还处于早期研究阶段，但未来经过完善和成熟，或能大幅提升LiDAR（激光雷达）自动巡航解决方案的探测精度。

利用LiDAR探测的点云数据，经过VoxelNet处理的定性结果图

（为了更好的展示，将结果呈现在了RGB图中）

据麦姆斯咨询报道，苹果公司的AI（人工智能）专家Yin Zhou和机器学习专家Oncel Tuzel近期公开发表了一篇题为“VoxelNet：应用于点云3D物体探测的端到端的机器学习”的学术论文。

在这篇论文中，苹果公司的专家指出，基于3D点云实现精准的物体探测（例如LiDAR阵列所产生的3D点云数据），是许多新兴现实应用的开发难点。从自动驾驶汽车到扫地机器人，这些无需人工操作，而在真实环境中实现自主巡航的机器设备，需要快速、精准地探测周围的关键障碍物。

苹果公司认为，相比基于2D成像的探测方法，LiDAR技术由于能够提供深度信息，从而更好的实现空间内的物体探测和定位，而被认为是一种更加可靠的代替方案。不过，LiDAR通过发射激光脉冲，然后测量物体表面反射回来的激光飞行时间而创建3D点云信息，能够反射回来并被探测器接收的光子往往很少，因此，其产生的点云数据较稀疏，且点云密度变化很大，由此带来了很多问题。

可训练的神经网络学习架构大幅提升LiDAR探测精度

VoxelNet架构图

目前处理3D点云数据转译最先进的技术包括为点云信息手工创建特征表征。有些方法将点云信息投射为鸟瞰视图，也有其它方法将点云信息转为3D立体像素网格，并为每个立体像素编码一定的特征。据苹果公司称，手工创建特征表征会带来“信息瓶颈”的问题，限制了系统高效地利用3D形貌信息。

为此，Zhou和Tuzel为基于点云的3D物体探测，提出了一种可训练的深度学习架构。该架构被称为VoxelNet，采用立体像素特征编码（voxel feature encoding， VFE）层来学习复杂的特征，以实现3D形貌的表征。VoxelNet是一种将特征提取和边界框预测合并成单步处理的通用3D探测神经网络，一种端到端的可训练的深度学习网络。特别的，该技术将点云分解为3D立体像素，通过层叠的立体像素编码层为3D立体像素编码，实现一种体积表征。

可训练的神经网络学习架构大幅提升LiDAR探测精度

立体像素特征编码层

在实验中，苹果公司提出的这套方法展现出了巨大的应用前景，试验结果大幅优于目前基于LiDAR的探测算法和基于成像的探测方案。在一系列测试中，VoxelNet被训练进行3种最基本物体的探测——汽车、行人和自行车。

除了理论研究，苹果公司目前还正在加州的街头测试评估自动驾驶汽车。苹果公司在自动驾驶汽车技术领域的研究始于“Project Titan”计划，公司试图从头开始创建一款自主品牌的自动驾驶汽车。经过大量的投资和人员招聘后，“Project Titan”遭遇了很多问题，最终在2016年末搁浅，不过由该计划开始的自动驾驶支持软件和相关硬件，仍在开发中。

尽管苹果公司的研究论文主要介绍了自动驾驶汽车的巡航应用，该技术还可以应用于利用深度测绘硬件来探测真实场景的增强现实（AR）系统。新款iPhone X“刘海”中的深度摄像头和LiDAR阵列类似，其中集成了微型点阵投影器，能够获取精准的3D深度信息。如果深度摄像头的探测范围进一步扩展，并安装在便携式设备上，再搭配先进的软件算法，或将开启全新的消费类AR体验。