浙大控制学院高飞最新合作研究成果在《Science Robotics》上发表

浙大控制学院高飞最新合作研究成果在《Science Robotics》上发表
时间：2024-05-30 来源：控制科学与工程学院编辑：访问次数:2174

近年来，事件相机在神经形态视觉方面取得了许多进展，使机器人在光照条件复杂的场景下可以实现微秒级视觉感知。然而事件相机的输出依赖于运动和纹理变化，无法捕捉与其运动平行的物体边缘。这是传感器硬件层面的问题，因此用算法解决颇具挑战性。团队设计了一种新型事件相机，提出了一种软硬件一体的系统级解决方案，称之为人造微眼动感知增强事件相机（Artificial MIcrosaccade-enhanced EVent camera AMI-EV）。通过一个安装在事件相机光圈前面的旋转楔形棱镜，使入射光线持续改变并触发事件；并通过算法补偿棱镜旋转带来的图像运动，实现了独立于外部运动的稳定纹理和高信息输出。其能够在微秒级响应、高动态范围感知（维持事件相机各类优点）的同时保持稳定的纹理。在传统RGB相机和事件相机无法提供良好数据质量的场景中，团队设计的AMI-EV仍能表现优越。

相关工作于5月30日以Microsaccade-inspired Event Camera for Robotics为题发表于国际机器人权威期刊Science Robotics，论文通讯作者为浙江大学控制学院长聘副教授高飞，共同通讯作者为马里兰大学计算机科学系研究员Cornelia Fermüller，第一作者为马里兰大学计算机科学系博士研究生、浙江大学控制学院FAST-LAB实习生何博涛。

灵感来源

人类视觉系统经过数百万年的进化，在视觉感知方面仍然优于最先进的机器人。人类视觉的一个特点是微眼动，在我们注视静态场景时，眼球也在产生微小的无意识运动。它们通过在视觉神经元中产生运动和刺激，以及增强空间细节的感知，确保视觉感知在注视期间不会消退。没有微眼动，人类无法维持对静止物体的感知。

图1. 微眼动如何抑制视觉消退的演示

当把眼睛集中在红色圆点上时，蓝色的环形区域和背景会逐渐褪色。这是因为在这段时间内，微眼动被抑制了，无法提供有效的视觉刺激来阻止周边区域的褪色。但是当你在紫色圆点之间进行注视跳跃时，即使跳跃很小(通常在0.5°-1.0°之间，取决于观察者与图像的距离)，环形区域也能保持相对清晰，不会太快褪色。

由此所引发的思考是，是否可以在机器人视觉中采用这种主动感知机制?

问题与挑战

DVS(动态视觉传感器)，也称为事件相机，近年在机器人领域备受关注。受生物启发，通过在每个像素上使用模拟微电路，事件相机可以达到几微秒的时间分辨率，动态范围也远高于普通RGB相机。事件相机在许多视觉导航任务中都展现了巨大潜力，包括动态障碍物感知、在恶劣照明条件下的定位以及自主检查或空间态势感知等特定应用。然而，除了这些功能优势，它的一些固有特性也带来了独特的挑战。事件相机只对运动做出响应，事件只在某像素光强变化超过一定阈值变化时触发的。因此，事件发生在图像中物体的边缘，且同时取决于运动和场景纹理。

图2. 传统事件相机存在的问题，当运动停止或方向变化时，图像纹理会部分丢失，无法保证稳定的成像

当事件相机运动方向与场景边缘平行时，不会记录任何事件，因此水平移动的事件相机无法看到水平的场景边缘。结果是，事件相机无法产生稳定持久的纹理，也无法一直保持高信息输出，这使得精确且长期的数据关联变得非常困难。然而，数据关联对于机器人视觉感知系统中采用的大多数算法(如光流估计或特征跟踪)都至关重要，保持数据关联的挑战已成为事件视觉在实际应用中的瓶颈。

提出的解决方案

为了从硬件-软件联合设计的角度实现准确和稳定的事件驱动数据关联。团队提出了一种受自然启发的高效解决方案，通过操纵入射光方向来实现的人工微眼动感知增强事件相机(AMI-EV)。

AMI-EV在事件相机前面使用旋转的楔形棱镜主动感知视觉信息。通过在高空间频率区域(即边缘)主动地触发事件，即使传感器不移动，AMI-EV也能保持纹理的外观和高频信息输出。补偿算法使得提出的系统可以即插即用，与现有的基于事件的感知算法兼容。

图3. A系统硬件说明，B旋转楔形棱镜工作原理示意图，C成像原理示意图，D系统组成

首先，为了在所有边缘上产生事件，团队利用了楔形棱镜偏转器的工作原理。当棱镜旋转时，可以通过它主动调整入射光的方向。如图3B所示，在程序开始时，楔形棱镜具有一定的朝向，并以固定角度偏转入射光。然后，执行器模块驱动光学偏转器模块沿相机的Z轴zc旋转，使入射光的偏转角度不断变化。这样，入射光会不断产生事件，因为它在图像平面上形成了类圆周轨迹的运动。因此，可等效于相机在不断产生旋转运动。

由于人造微眼动AMI在图像平面的所有方向上都存在，因此输出事件流包含了场景的所有边界信息，如图3(C和D)所示。与之前旋转相机而不是棱镜的工作相比，团队提出的系统中旋转的部件不包含任何易碎的组件，如相机，这使其在高速旋转下更加稳定。此外，该系统以恒定速度旋转，产生的运动更加平滑连续。

该系统的另一个重要部分是AMI补偿。这是该方法相比于之前工作的一个主要优势，之前工作振动相机而不补偿其振动，不可避免地会产生运动模糊和精度下降的问题。观察通过将事件在短时间间隔内累积而得到的图像(称之为累积事件图像，见图3C)，可以看到，如果没有补偿，边界会模糊。为了获得清晰的边缘，由同一入射光线方向触发的事件应该被移动到同一个像素。这需要在记录开始时校准楔形棱镜的朝向，并补偿楔形运动引入的事件的空间位移。补偿过程如图3C第二行和图3D所示。校准和补偿算法过程视频见(Movie S1)。

对比测试

为了验证所提出系统在机器人视觉感知领域的广泛应用潜力，研究团队对多种最先进的基于事件的算法进行了对比测试，涵盖了若干代表性应用场景，结果充分证明了所提出系统在全面提升性能方面的卓越效果。为了进一步推动相关研究的发展，研究团队进行了软硬件的全面开源，包括硬件设计、AMI生成算法、标定补偿软件、仿真平台，以及与公开事件相机数据集的转换接口。有了这些工具，开发者们可以基于仿真环境、现有的事件视觉数据集，乃至实际场景，为自身的特定任务生成定制化的AMI-EV数据集。

测试视频Movie S2 纹理增强的定量评估展示了在三种不同的视觉表示中的对比实验，包括事件流、累积事件图像以及重构强度图像。在每一组实验中，提出系统的性能都与标准事件相机(S-EV)进行了对比。通过实验结果可以看出，与标准事件相机相比，所提出的系统能够获取更丰富的环境信息。同时，它能够在保持事件相机的固有优势(如高动态范围和高时间分辨率)的基础上，维持更高的信息输出水平。

测试视频Movie S3 特征检测与匹配展示了所提出系统在特征检测和匹配方面的出色性能。实验结果证明，与标准事件相机相比，该系统不仅能够保持事件相机固有的优势，同时还能够提供高质量且独立于自身运动的特征信息。

测试视频Movie S4 人体检测和姿态估计展示了所提出系统的推断速率明显高于标准事件相机(S-EV)，这使得该系统能够输出更高的帧率，从而在一些需要快速响应的应用场景中展现出更好的性能。