Towards more accurate 3D object detection for robots and self-driving cars
所提出的模型采用创新策略,使其能够准确地将 3D LiDAR 数据与 2D 图像相结合,即使在恶劣的天气条件下,其性能也明显优于最先进的小目标检测模型。图片来源:Hiroyuki Tomiyama,立命馆大学

机器人和自动驾驶汽车是技术领域中增长最快的领域之一,有可能使工作和交通变得更安全、更高效。由于机器人和自动驾驶汽车都需要准确感知周围环境,因此 3D 物体检测方法是一个活跃的研究领域。

大多数 3D 物体检测方法都采用 LiDAR 传感器来创建其环境的 3D 点云。简而言之,LiDAR 传感器使用激光束快速扫描和测量源周围物体和表面的距离。然而,由于激光雷达对噪声的高敏感性,单独使用激光雷达数据可能会导致错误,特别是在降雨期间等恶劣天气条件下。

为了解决这个问题,科学家们开发了多模态 3D 物体检测方法,将 3D LiDAR 数据与标准相机拍摄的 2D RGB 图像相结合。虽然 2D 图像和 3D LiDAR 数据的融合可以带来更准确的 3D 检测结果,但它仍然面临着一系列挑战,精确检测小物体仍然很困难。

问题主要在于如何充分对齐从 2D 和 3D 数据集中独立提取的语义信息,由于校准不精确或遮挡等问题,这很难。

在此背景下,由日本立命馆大学 Hiroyuki Tomiyama 教授领导的研究团队开发了一种创新方法,使多模态 3D 物体检测更加准确和鲁棒。他们的论文中描述了所提出的方案,称为“动态点像素特征对齐网络”(DPPFA-Net)发表于IEEE 物联网期刊

该模型由三个新颖模块的多个实例组成:基于内存的点像素融合(MPPF)模块、可变形点像素融合(DPPF)模块和语义对齐评估器(SAE)模块。

MPPF 模块的任务是在模​​态内特征(2D 与 2D 以及 3D 与 3D)和跨模态特征(2D 与 3D)之间执行显式交互。使用2D图像作为存储库降低了网络学习的难度,并使系统对D点云中的噪声具有更强的鲁棒性。此外,它促进了更全面和更具区分性的特征的使用。

相比之下,DPPF 模块仅在关键位置的像素处进行交互,这些像素是通过智能采样策略确定的。这允许以低计算复杂度进行高分辨率特征融合。最后,SAE 模块有助于确保融合过程中两种数据表示之间的语义对齐,从而减轻特征模糊的问题。

研究人员通过将 DPPFA™Net 与广泛使用的 KITTI Vision Benchmark 的最佳表现进行比较来对其进行测试。值得注意的是,所提出的网络在不同噪声条件下平均精度提高了 7.18%。为了进一步测试模型的功能,该团队通过将降雨形式的人工多模态噪声引入 KITTI 数据集,创建了一个新的噪声数据集。

结果表明,所提出的网络不仅在面对严重遮挡的情况下,而且在各种级别的恶劣天气条件下都比现有模型表现更好。“我们对 KITTI 数据集和具有挑战性的多模态噪声案例进行的广泛实验表明,DPPFA-Net 达到了新的最先进水平,”Tomiyama 教授说。

值得注意的是,准确的 3D 物体检测方法可以通过多种方式改善我们的生活。依赖此类技术的自动驾驶汽车有可能减少事故并改善交通流量和安全性。此外,机器人领域的影响也不应被低估。“我们的研究可以促进机器人更好地理解和适应其工作环境,从而更精确地感知小目标,”富山教授解释道。

“这些进步将有助于提高机器人在各种应用中的能力。”3D 对象检测网络的另一个用途是为深度学习感知系统预先标记原始数据。这将显着降低手动注释的成本,加速该领域的发展。

更多信息:Jun Cheng Wang 等人,多模态 3D 对象检测的动态点像素特征对齐,IEEE 物联网期刊(2023)。DOI:10.1109/JIOT.2023.3329884

引文:网络结合 3D LiDAR 和 2D 图像数据,实现更稳健的小物体检测(2024 年 1 月 9 日)检索日期:2024 年 1 月 9 日来自 https://techxplore.com/news/2024-01-network-combines-3d-lidar-2d.html

本文档受版权保护。除了出于私人学习或研究目的的任何公平交易外,不得未经书面许可,不得复制部分内容。所提供的内容仅供参考。