世界快讯:AutoAlign:多模态融合的BEV目标检测方法
在自动驾驶中,通过RGB图像或激光雷达点云进行目标检测已得到广泛探索。然而,如何使这两个数据源相互补充和有益,仍然是一个挑战。AutoAlignV1和AutoAlignV2主要是中科大、哈工大和商汤科技等(起初还包括香港中文大学和清华大学)的工作。
(资料图片)
AutoAlignV1来自arXiv论文“AutoAlign: Pixel-Instance Feature Aggregation for Multi-Modal 3D Object Detection“,上传于2022年4月。
摘要
本文提出一种用于3D目标检测的自动特征融合策略AutoAlign V1。用一个
可学习的对齐图(learnable alignment map)
来建模图像-点云之间的映射关系,而不是建立与摄像机投影矩阵的确定性对应关系。该图使模型能够以动态和数据驱动的方式自动对齐非同态特征。具体而言,设计了一个交叉注意特征对齐模块,自适应地对每个体素的像素级图像特征进行聚集。为了增强特征对齐过程中的语义一致性,还设计了一个自监督跨模态特征交互模块,通过该模块,模型可以通过实例级特征引导学习特征聚合。
背景介绍
多模态3-D目标检测器可以大致分为两类:决策级融合和特征级融合。前者以各自的模式检测目标,然后在3D空间中将边框集合在一起。与决策级融合不同的是,特征级融合将多模态特征组合成单个表征来检测目标。因此,检测器可以在推理阶段充分利用来自不同模态的特征。有鉴于此,最近开发了更多的特征级融合方法。
一项工作将每个点投影到图像平面,并通过双线性插值获得相应的图像特征。虽然在像素级精细地执行了特征聚合,但由于融合点的稀疏性,将丢失图像域中的密集模式,即破坏图像特征中的语义一致性。
另一项工作用3D检测器提供的初始方案,获得不同模态的RoI特征,并连接在一起进行特征融合。它通过执行实例级融合来保持语义一致性,但在初始提议生成阶段存在如粗糙的特征聚合和2D信息缺失的问题。
为了充分利用这两种方法,作者提出了一种用于3-D目标检测的集成多模态特征融合框架,名为
AutoAlign
。它使检测器能够以自适应的方式聚合跨模态特征,在非同态表征之间的关系建模中证明是有效的。同时,它利用像素级的细粒度特征聚合,同时通过实例级特征交互保持语义一致性。如图所示:特征交互作用于两个层面:(i)像素级特征聚合;(ii)实例级特征交互。
AutoAlign方法
先前的工作主要利用摄像机投影矩阵以确定性方式对齐图像和点特征。这种方法是有效的,但可能会带来两个潜在问题:1)该点无法获得图像数据的更广泛视图,2)仅保持位置一致性,而忽略语义相关性。因此,AutoAlign设计了
交叉注意特征对齐(CAFA)
模块,在非同态表征之间自适应地对齐特征。CAFA(Cross-Attention Feature Alignment)
模块不采用一对一的匹配模式,而是使每个体素感知整个图像,并基于可学习对齐图(learnable alignment map)动态地关注像素级2D特征。如图所示:AutoAlign由两个核心组件组成,CAFA在图像平面执行特征聚合,提取每个体素特征的细粒度像素级信息,
SCFI(Self-supervised Cross-modal Feature Interaction)
执行跨模态自监督,使用实例级引导,增强CAFA模块的语义一致性。CAFA是聚集图像特征的细粒度范例。但是,它无法捕获实例级信息。相反,基于RoI的特征融合保持了目标的完整性,同时在提议生成阶段会受到粗糙特征聚集和2D信息缺失的影响。
为了弥合像素级和实例级融合之间的差距,引入了
自监督跨模态特征交互(SCFI)
模块来指导CAFA的学习。它直接利用3D检测器的最终预测作为提议,利用图像和点特征进行精确的提议生成。此外,没有将跨模态特征连接在一起进行进一步的边框优化,而是在跨模态特征对中加入相似性约束,作为特征对齐的实例级引导。给定2D特征图和相应的3D体素化特征,随机采样N个区域3D检测框,然后用摄像头投影矩阵投影到2D平面,从而生成一组成2D框对。一旦获得成对框,在2D和3D特征空间采用2DRoIAlign和3DRoIPooling来获得各自的RoI特征。
对于每个成对的2D和3D RoI特征,对来自图像分支的特征和来自点分支的体素化特征,执行
自监督跨模态特征交互(SCFI)
。两个特征都送入一个投影头,转换一个模态的输出以匹配另一个模态。引入一个有两个全连接层的预测头。如图所示:尽管多任务学习非常有效,但很少有工作讨论图像域和点域的联合检测。在以前的大多数方法中,图像主干是外部数据集预训练权重直接初始化的。在训练阶段,唯一的监督是从点分支传播的3D检测损失。考虑到图像主干的大量参数,2D分支更有可能在隐监督下达到过拟合。为了正则化从图像中提取的表征,将图像分支扩展到Faster R-CNN,并用2D检测损失对其进行监督。
实验结果
AutoAlignV2来自“AutoAlignV2: Deformable Feature Aggregation for Dynamic Multi-Modal 3D Object Detection“,上传于2022年7月。
摘要
AutoAlign存在着由全局注意机制引入的高计算成本。为此,构建在AutoAlign之上,作者提出AutoAlignV2,一个更快、更强的多模式3D检测框架。为了解决计算成本问题,本文提出
跨域DeformCAFA
(Cross-Attention Feature Alignment)模块。它关注用于跨模态关系模型的稀疏可学习采样点,这增强了对标定误差的容忍度,并大大加快了跨模态的特征聚合。为了克服多模态设置下复杂的GT-AUG
,在给定深度信息情况下针对基于图像patch的凸组合,设计了一种简单而有效的跨模态增强策略。此外,通过一种图像级dropout训练方案,模型能够以动态方式进行推理。代码将开源:https://github.com/zehuichen123/AutoAlignV2.
注:GT-AUG(“
SECOND: Sparsely embedded convolutional detection
“. Sensors,2018),一种数据增强方法背景
如何有效地结合激光雷达和摄像头的异构表示进行3-D目标检测尚未得到充分的探索。当前训练跨模态检测器的困难归因于两个方面。一方面,结合图像和空间信息的融合策略仍然是次优的。由于RGB图像和点云之间的异构表示,将特征聚集在一起之前需要仔细对齐。AutoAlign提出一种用于自动配准的可学习全局对齐模块,并实现了良好的性能。然而,它必须在CSFI模块的帮助下进行训练,获取点和图像像素之间内部的位置匹配关系。
此外,注意风格的操作复杂性是图像大小的二次关系,因此在高分辨率特征图上应用query是不切实际的。这种限制可能导致图像信息粗糙和不准确,以及FPN带来分层表示的丢失。另一方面,数据增强,尤其是GT-AUG,是3D检测器实现竞争性结果的关键步骤。就多模态方法而言,一个重要的问题是在执行剪切和粘贴操作时如何保持图像和点云之间的同步。MoCa在2D域中使用劳动密集型掩码标注,获得精确的图像特征。边框级标注也适用,但需要精细复杂的点过滤。
AutoAlignV2方法
AutoAlignV2的目的是有效地聚集图像特征,以进一步增强3D目标检测器的性能。从AutoAlign的基本架构开始:将成对图像输入到一个轻量级主干网ResNet,再输入FPN获得特征图。然后,通过可学习对齐图(learnable alignment map)聚合相关图像信息,在体素化阶段丰富非空体素的3D表示。最后,增强的特征将馈送到后续的3D检测流水线中,生成实例预测。
如图是AutoAlignV1和AutoAlignV2的比较:AutoAlignV2提示对齐模块有确定性投影矩阵保证的一般映射关系,同时保留自动调整特征聚合位置的能力。由于计算成本较轻,AutoAlignV2能够聚合分层图像信息的多层特征。
这种范例可以数据驱动的方式聚合异构特征。然而,有两个主要瓶颈仍然阻碍性能。第一个是低效的特征聚合。虽然全局注意图自动实现RGB图像和激光雷达点之间的特征对齐,但计算成本很高。第二种是图像和点之间的复杂数据增强同步。GT-AUG是高性能3D目标检测器的关键步骤,但如何在训练期间保持点与图像之间的语义一致性仍然是一个复杂的问题。
如图所示,AutoAlignV2由两部分组成:
跨域DeformCAFA
模块和深度-觉察GT-AUG
数据增强策略,另外还提出了一种图像级dropout训练策略,使模型能够以更动态的方式进行推理。变形特征聚合
CAFA的瓶颈在于,将所有像素作为可能的空间位置。基于2D图像的属性,最相关的信息主要位于几何邻近的位置。因此,不必考虑所有位置,而只考虑几个关键点区域。如图所示,这里引入了一种新的跨域
DeformCAFA
操作,该操作大大减少了采样候选者,并为每个体素query特征动态地确定图像平面的关键点区域。借助于动态生成的采样偏移,DeformCAFA能够比普通操作更快地进行跨域关系建模。能够执行多层特征聚合,即充分利用FPN层提供的分层信息。DeformCAFA的另一个优点是,显式地保持与摄像机投影矩阵的位置一致性,获得参考点。因此,即使不采用AutoAlign中提出的
CFSI
模块,DeformCAFA也可以产生语义和位置一致的对齐。与普通的非局部操作相比,稀疏样式的DeformCAFA大大提高了效率。然而,当直接应用体素特征作为token来生成注意权重和可变形偏移量时,检测性能几乎无法与双线性插值相比,甚至更差。仔细分析,在token生成过程中存在跨域知识翻译问题。和通常在单峰设置下的原始变形操作不同,跨域注意需要两种模态的信息。然而,体素特征仅由空域表征组成,很难感知图像域的信息。因此,降低不同模态之间的交互非常重要。
假设每个目标的表示可以明确分解为两个组成部分:域特定信息和实例特定信息。前者指的是表征本身相关的数据,包括域特征的内置属性,而后者不管目标编码在哪个域,所表示的是有关目标的ID信息。
深度-觉察的GT-AUG
对于大多数深度学习模型而言,数据增强是实现竞争性结果的关键部分。然而,在多模态3D目标检测方面,在数据增强中将点云和图像组合在一起时,很难保持二者之间的同步,这主要是由于目标遮挡或视点的变化。为了解决这个问题,设计了一种简单而有效的跨模态数据增强算法,名为深度-觉察GT-AUG。该方法放弃了复杂的点云过滤过程或图像域精细掩码标注的要求。相反,从3D目标标注中引入深度信息,mix-up图像区域。
具体而言,给定要粘贴的虚拟目标P,遵循GT-AUG相同的3D实现。至于图像域,首先按照从远到近的顺序进行排序。对于每个要粘贴的目标,从原始图像中裁剪相同的区域,并在目标图像上以α的混合比组合。如下算法1中显示详细的实现。
深度-觉察GT-AUG仅在3D域中遵循增强策略,但同时通过基于mix-up的剪切和粘贴(cut-and-paste)保持图像平面的同步。关键点是,在原始2D图像粘贴增强的patches后,MixUp技术不会完全移除相应的信息。相反,它会衰减此类信息相对于深度的紧致性,以保证对应点的特征存在。具体而言,如果一个目标被其他实例遮挡n次,则该目标区域的透明度,根据其深度顺序以因子(1− α)^n衰减。
如图所示是一些增强的例子:
图像级别dropout训练策略
实际上,图像通常是一种输入选项,并非所有3D检测系统都支持。因此,更现实、更适用的多模态检测解决方案应采用动态融合方式:当图像不可用时,模型就基于原始点云检测目标;当图像可用时,该模型进行特征融合并产生更好的预测。为了实现这一目标,提出一种图像级dropout训练策略,在图像级随机dropout聚集的图像特征,并在训练期间用零填充。如图所示:(a) 图像融合;(b) 图像级dropout融合。
由于图像信息间歇性丢失,模型应逐渐学会将2D特征用作一种替代输入。
实验结果
责任编辑:hnmd003
相关阅读
-
环球即时看!最新的“视觉为中心的BEV感知”综述论文
最近在IEEET-PAMI投稿的一篇BEV综述论文“Vision-CentricBEVPerception:ASurvey“,在arXiv上传于2022年...
2022-08-17 -
当前速递!不止自动驾驶,值得期待的场景有很多!探访山东高速智能网联高速公路测试基地
没有司机,汽车在城市道路上平稳流畅地打灯变道、遇到红灯及时停车、方向盘自动转动,这不再是科幻电影...
2022-08-17 -
环球焦点!万达酒店发展:上半年实现收入3.55亿港元,同比减少14.36%
8月17日晚间,万达酒店发展发布中期业绩报告。报告期内,实现收入3 55亿港元,同比减少14 36%,期内毛...
2022-08-17 -
热资讯!万物云回应“或将于本周寻求香港IPO批准”:一切以公司公告为准
8月17日,有市场消息指万物云或将于本周寻求香港IPO批准,并将于本周晚些时候决定IPO时间。据万物云最新...
2022-08-17 -
天天热消息:福州六年来首次下调房贷首付比例,五城区户籍二套房首付降至四成
继苏州、无锡、南京之后,福州也调整了房贷首付比例。蓝鲸财经从福州市房管局网站获悉,8月16日,《福州...
2022-08-17
阅读排行
资讯播报
- 全球观察:嘉兴南湖区10.3亿挂牌...
- 当前快报:中交地产子公司为项目...
- 当前视点!因汇兑亏损 路劲基建...
- 当前焦点!中国足协:开展赛风赛...
- 热头条丨中百集团公司董事孙昊因...
- 深演智能角逐数字经济发展,赋能...
- 全球最新:京东物流与山东港口物...
- 【速看料】中交地产与路劲、金地...
- 深圳时尚设计周 | 萨米特瓷砖...
- 天天看点:杭州亚残运会将于2023...
- 当前速读:欧冠升认为港交所SPAC...
- 全球短讯!17新华联控MTN001未能...
- 快报:第4届亚残运会将于2023年1...
- 实时焦点:多地推二手房“带押过...
- 补充优质植物蛋白,为什么首选永...
- 环球热头条丨港交所希望明年一季...
- 全球视点!象屿金控10亿元公司债...
- 实时焦点:公安部:电信网络诈骗...
- 世界今头条!金华7宗宅地收金40....
- 全球讯息:斯诺克欧洲大师赛:“...
- 当前信息:药企卖两套学区房换来...
- 每日资讯:上半年深圳二手办公成...
- 环球微动态丨上半年深圳二手办公...
- 【全球新要闻】上半年深圳一手办...
- 当前视点!福建厦门思明区深化近...
- 遇见爱的奇迹 | 张德芬空间线...
- 天天热点!视频刷屏!“买了三套...
- 当前速递!不止自动驾驶,值得期...
- 环球即时看!最新的“视觉为中心...
- 天天时讯:安徽省泗县倡议书遭“...
- 当前时讯:上汽通用汽车新能源试...
- 天天时讯:厦门象屿80亿元公司债...
- 环球滚动:北京挂牌石景山1宗预申...
- 秀丽媤系列上新——臻本活润系列...
- 天天观热点:多地鼓励公职人员买...
- 温度保持稳定可以存放12个月 连...
- 「美」学不设限 | 华瑞凯琳202...
- “盲盒式”法拍房成交连续4个月...
- 狂欢倒计时!上海爱企谷集市千万...
- 产业链供应链相对优势显现 7月...
- 为何长城汽车柠檬混动“混”的最...
- 援疆助农促振兴,汇源深耕沙棘产...
- 不应与其他产品混装 新国标提出...
- 推动项目尽快落地实施 国家发展...
- 快报:中南建设:控股股东中南城...
- 建立高效审批长效机制 内蒙古启...
- 速递!浙江省泰顺县青年返乡创业...
- 当前通讯!华夏北京保障房REIT公...
- 今日要闻!有点意思!官方说广州...
- 每日播报!龙湖回应网传将于8月底...
- 天天讯息:花30万元即可“买”到...
- 扰乱医美市场竞争秩序,渠道医院...
- 喜居客发起的家具工厂直购模式,...
- 出于对市场风险的规避 相对于现...
- 郑州配眼镜哪里好?知道这七家就...
- 推动允许大中型定制客运车辆使用...
- 共促中国经济向好发展,Mobis受...
- 加强研发上下游配合与新技术集成...
- 焦点要闻:新明珠集团 带“雷”...
- 世界讯息:中山2个联合社集体用...
- 世界视讯!早读拾光(8.17)丨龙湖...
- 【全球热闻】绿城管理:林三九增...
- 【天天时快讯】福晟国际:呈请聆...
- 环球最新:“将于8月底破产”?...
- 全球热点评!前7月全国住宅销售...
- 【天天速看料】低首付风险高 ...
- 环球快播:龙湖澄清“破产”传言...
- 环球讯息:打破世界纪录缘何越来...
- 焦点热门:蓝光发展控股股东所持7...
- 焦点热文:华依科技正式启动自动...
- 焦点热讯:武磊启程回国 有望9月...
- 今日热门!上汽AI LAB入驻临港,...
- 环球热头条丨苏州常熟挂牌两宗宅...
- 每日快播:中国恒大、恒大物业官...
- 【全球快播报】“杀神”陈玘回归...
- 当前热讯:电驱动总成差速器壳体...
- 全球资讯:特斯拉液冷座椅专利解析
- 全球速读:龙湖集团回应网传将于...
- 观天下!国际汽联F4方程式中国锦...
- 全球聚焦:保障房REITs上市被疯...
- 全球速递!万物梁行与车都物业达...
- 今日观点!2022中国巡回赛·沈阳...
- 环球微资讯!因股票质押式回购业...
- 每日信息:增达定制类产品 | ...
- 环球今热点:外高桥集团上半年营...
- 简讯:龙湖集团回应网传将于8月...
- 全球快资讯丨广东中山皇爵假日广...
- 世界新动态:全国体操系列赛将在...
- 当前播报:浙江湖州:鼓励国企收...
- 环球时讯:暑期燃起冰雪热 中国...
- 环球视点!热议提前还贷,居民购...
- 焦点滚动:蓝光发展回应股价异动...
- 环球信息:湖北联投与宜昌市牵手...
- 环球热推荐:蓝光发展:股票质押...
- 天天最新:新地NOVO LAND 1B期...
- 【天天速看料】北京统计局:前7...
- 全球资讯:临沂商城控股集团6亿...
- 天天速递!北京统计局:前7月全...
- 即时焦点:“16融创07”将自2022...
- 海心智惠与国任保险签署战略合作...