浅析最新自动驾驶视觉技术路线
自动驾驶是逐渐从预言阶段向工业化阶段的一个过渡,具体表现可分为4点:
1. 在大数据的背景下,数据集的规模在快速扩张导致以前在小规模数据集上开发原型的细节会被大量过滤掉,能在大规模数据上有效的工作才会被留下来。
(资料图片)
2. 关注点的切换,从单目切换到多目场景,导致复杂度提升。
3. 倾向于对应用友好的设计,如输出的空间从图像空间向BEV空间的转移。
4. 从之前单纯追求精度到逐渐同时考虑推理速度。同时自动驾驶场景下需要快速响应,因此对性能的要求会考虑速度方面,另外就是更多的去考虑如何部署到边缘设备。
还有一部分的背景是在过去10年里,视觉感知在深度学习的推动下快速发展,分类检测、分割等主流的方向上有大量的工作以及部分相当成熟的范式。
自动驾驶场景里的视觉感知在发展的过程中,像特征编码的目标定义、感知范式和监督等方面都大量借鉴了这些主流的方向,因此在投身自动驾驶感知之前,这些主流的方向都应该去涉猎一下。
在这些背景之下,过去一年涌现了大量针对大规模数据集的三维目标检测工作,如图1所示(标红的为曾经第一过的算法)。
图1 三维目标检测近一年发展
01、
技术路线
Lifting
自动驾驶场景中视觉感知和主流的视觉的感知区别主要在于给定的目标定义空间不同,主流的视觉感知的目标定义在图像空间,自动驾驶场景的目标定义在3维空间。在输入都是图像的情况下,获取3维空间的结果就需要有一个Lift的过程,这就是自动驾驶视觉感知核心的问题。
我们可以把解决Lift对象问题的方法分为输入、中间特征和输出,输入级别的一个例子就是视角变化,其原理是利用图像去推理深度信息,然后利用深度信息把图像的RGB值投影到三维空间,得到一个带颜色的点云,后面就沿用点云检测的相关工作。
目前比较有前景的是特征级别的变换或特征级别的Lift,如DETR3D这些都是在特征级别进行空间变化,特征级别变换的好处是可以避免重复的去提取图像级别的特征,计算量小,也可以避免输出级别的环视结果融合的问题。当然特征级别的转换也会有一些典型的问题,如通常会用到一些奇怪的OP,导致部署的时候并不友好。
目前特征级别的Lift过程比较鲁棒的主要有基于深度和注意力机制策略,分别具有代表性的为BEVDet和DETR3D。基于深度的策略是通过计算图像的每一点的深度,然后根据相机的成像模型把特征投影到3维空间,从而完成Lift的一个过程。基于注意力机制的策略是通过预先定义3维空间中的一个对象当做query,通过内外参找到和三维空间中点所对应的图像特征当做key和value,再通过attention的方式去计算得到一个3维空间中对象的一个特征。
当前所有的算法都基本上高度依赖于相机模型,无论是基于深度的还是基于注意力机制的,这就会导致对标定敏感以及计算过程普遍偏复杂。而那些抛弃相机模型的算法往往会缺乏鲁棒性,所以这方面还没有完全的成熟。
Temporal
时序(Temporal)的信息可以有效提高目标检测的效果。对于自动驾驶的场景来说,时序具有更深层次的意义在于目标的速度是当前场景下主要的感知目标之一。速度重点在于变化,单帧数据并不具备充分的变化信息,因此需要去建模来提供时间维度的一个变化信息。现有的点云时序建模方法是把多帧的点云混合在一起作为输入,这样可以得到比较稠密的点云,使得检测更准确。另外多帧的点云含有持续的信息,后面在网络训练过程中通过BP学会如何提取这个持续的信息,以解决速度估计这种需要持续信息的任务。
视觉感知的时序建模方式主要来源于BEVDet4D和BEVFormer。BEVDet4D通过简单的融合两帧的一个特征,为后续的网络提供一个持续的信息。另外一个路径是基于attention的,同时提供单时帧和逆时针的特征作为query的一个对象,然后通过attention的方式同时去查询这两个特征,从而去提取时序的信息。
Depth
自动驾驶视觉感知相比于雷达感知的一个最大的缺点就是深度估计的准确度。论文《probabilistic and geometric depth: detecting objects in perspective》通过替换GT的方法来研究不同因素对表现分的影响程度,分析得到的主要结论是精确的深度估计可以带来显著的性能提升。
但深度估计是当前视觉感知的一个主要的瓶颈,目前改进的思路主要就有两种,一种是在PGD里面利用几何约束对预测的深度图进行refine。另一种是利用激光雷达作为监督去获得一个鲁邦性更好的深度估计。
目前流程上优胜的方案BEVDepth,是在训练的过程中利用激光雷达所提供的深度信息去对变化过程中的深度估计进行监督,和感知的主任务同时进行。
Muti-modality/Multi-Task
多任务是希望在一个统一的框架上去完成多种的感知任务,通过这个计算能够达到节省资源或者加速计算推理的目的。但目前的方法基本上都是在得到一个统一的特征之后,通过不同的层次去处理特征来简单的实现多任务,普遍都存在任务合并之后,性能下降的问题。多模态也差不多普遍都是在整个判断里面找到一个可以直接融合的形式,然后实现一个简单的融合。
02、
BEVDet系列
BEVDet
BEVDet网络如图2所示,特征提取过程主要是提取的图像空间的一个特征转化成一个BEV空间的特征,然后进一步的去编码这个特征,得到一个预测可用的特征,最后用稠密预测的方式进行目标预测。
图2BEVDet网络结构
视角变化模块过程分两步走,首先假设要变换的特征的大小是VxCxHxW,然后在图像空间以分类的方式去预测一个深度,对于每一个像素得到一个D维的深度分布,那么就可以利用这两个将不同深度的特征进行渲染,得到一个视觉特征,然后利用相机模型将它投影到3维空间中,对3维空间进行体素化,其次进行splat过程得到BEV特征。
视角变化模块的一个非常重要特点是在数据增缓中起到了一个相互隔离的作用。具体而言就是经过相机的内参,可以投影到3维空间中得到相机坐标系上的一个点,当数据增广的作用在图像空间上点的时候,为了维持在这个相机坐标系上点的坐标不变,则需要做一个逆变换,即在相机坐标系上面的一个坐标在增广前和增广后是不变的,这就起到了一个相互隔离的效果。相互隔离的缺点是图像空间的增广并不会对BEV空间的学习起到正则化的作用,优点可以提高BEV空间学习的鲁棒性。
我们从实验上可以得到几个比较重要的结论。首先,在使用了BEV空间的编码器之后,算法更容易陷入过拟合的情况。另外一个结论是BEV空间的增广会比图像空间的增广对性能的影响更大。
还有就是BEV空间的目标尺寸和类别高度的相关,同时目标之间的重合长度很小会导致一些问题,观察到在图像空间里面设计的非极大值抑制方法并非是最优的。同时加速的策略的核心是利用并行的计算方式去给不同小的计算任务去分配独立的线程去达到并行计算加速的目的,优点在于没有额外的显存开销。
BEVDet4D
BEVDet4D网络结构如图3所示。该网络的主要关注点在于怎么把逆时帧的特征应用到当前帧,我们选择输入的特征作为一个保留的对象,但没有选择这个图像特征,因为目标的变量都是定义在BEV空间,而图像的特征并不适用于直接的时序建模。同时也没有选择BEV Encoder后面的特征去作为持续融合的特征,因为我们需要在BEV Encoder的中进行一个持续特征的提取。
考虑到视角变化模块输出的特征比较稀疏,因此在视角变换后接了一个额外的BEV Encoder去提取初步BEV特征,再去进行一个时序的建模。在时序融合的时候,我们把逆时帧的特征通过对齐之后和当前针进行简单的拼接就完成这个时序的一个融合,其实我们在这里就是把这个时序特征的提取的任务就交给了后面的BEV去做。
图3BEVDet4D网络结构
怎么去设计与网络结构相匹配的目标变量?在这之前,我们首先要了解一下网络的一些关键的特性,首先是特征的感受野,因为网络是通过BP学习,特征的感受野是由输出空间所决定的。
自动驾驶的感知算法的输出空间一般会定义在自车周围的一定范围内的空间,特征图就可以视为该连续空间上一个均匀分布,角点对齐的一个离散采样。由于在特征图的感受野是定义在自车周围的一定范围内就会随着自车的运动而发生了变化,因此在两个不同时间节点,特征图的感受野在世界坐标系上面是有一定的偏移的。
若直接把两个特征进行一个拼接,静态目标在两个特征图中的位置是不同的,动态目标在这两个特征途图中的偏移量等于自测的偏移量加上动态目标在世界坐标系中的偏移量。根据模式一致的一个原则,既然拼接的特征里面目标的偏移量是跟自车相关的,因此在设定网络的学习目标的时候,应该是目标在这两张特征图中的位置的变化量。
根据下面的公式去进行推导,可以得到一个学习的目标是跟自测的运动是不相关的,只跟目标在世界坐标系下面的一个运动相关。
我们从上述推导得到的学习目标和当前主流方法的学习目标区别就在于去掉了时间成分,而速度等于位移/时间,但这两个特征中并没有提供时间相关的线索,所以如果学习这个速度的目标,需要网络去准确的估计出这个时间的成分,这就增加了一个学习的难度。在实际中,我们可以把训练过程中两帧的时间设定为恒定值,一个恒定的时间间隔网络是可以通过学 BP学习到的。
在时域的增广当中,我们在训练过程中随机的采用不同的时间间隔,在不同的时间间隔下,目标在两张这张图中的偏移量不同,学习的目标偏移量也不同,以此达到模型对不同偏移量的鲁邦效果。同时,模型对于目标的偏移量是有一定的灵敏度的,即如果间隔太小,两帧之间变化太小就很难被感知到。因此在测试的时候选择一个合适的时间间隔,可以有效提高模型的一个泛化的性能。
BEVDepth
这篇是利用雷达去得到一个鲁棒性的深度估计,如图4所示。它通过利用点云去对变化模块中的深度分布去进行监督,这个监督是稀疏的,这个稀疏是相比于目标所提供的深度监督来说是稠密的,但是也没有达到每个像素都有一个准确的深度监督,也是相对稀疏。不过可以提供更多的样本,提高这个深度估计的一个泛化的性能。
图4BEVDepth网络结构
这篇工作另外一个方面是把特征和深度分了两个分支进行估计,并且在深度估计的分支里面增加额外的残差网络以提高深度估计分支的感受野。研究人员认为这个相机内外参的精度问题会导致context和深度是不对齐的,当这个深度估计的网络的感受不够大的时候,会有一定的精度损失。
最后就是将这个相机的内参作为一个深度估计的分支输入,使用了一个类似于NSE的方式,对输入特征的通道进行一个通道层面的调整,这可以有效提高网络对于不同的相机内参的鲁棒性。
03、 局限性与相关的讨论
首先,自动驾驶的视觉感知最终服务于部署,而在部署的时候会涉及到数据的问题和模型的问题。数据的问题涉及到一个多样性的问题和数据标注,因为人工标注是非常昂贵的,因此看以后能不能够实现自动化的标注。
目前来说对于动态目标的标注还是前所未有的,对于静态目标可以通过3维重建去得到一个偏自动化标注或者半自动化的标注。另外是模型方面,现在的模型设计对标定是一个不鲁棒的或说是对标定是敏感的,那么怎么样去让模型对标定鲁棒或者说不依赖于标定这也是一个值得思考的问题。
另外就是网络结构加速的问题,能不能用通用的OP去实现视角的变化且这个问题会影响到网络加速的过程。
责任编辑:hnmd003
相关阅读
-
世界快资讯:嘉定打造“世界级智能新能源汽车公共数据中心”,为汽车产业发展提供专业支撑
在位于嘉定的上海国际汽车城,有两个数据中心。测试企业数28家,在线车辆数171辆,今日测试时长1605小时...
2023-01-12 -
世界快资讯:嘉定打造“世界级智能新能源汽车公共数据中心”,为汽车产业发展提供专业支撑
在位于嘉定的上海国际汽车城,有两个数据中心。测试企业数28家,在线车辆数171辆,今日测试时长1605小时...
2023-01-12 -
世界信息:去年一二手房成交量创近年新低! 今年广州楼市主题仍是“去库存”
克而瑞广佛区域统计显示,广州2022年上下半年成交情况出现鲜明对比上半年政策边际放宽、房企借力年中冲...
2023-01-12 -
每日热门:拟溢价增资新能源电池材料商遭关注 开元教育两度延期后交出回复
每经记者陈鹏丽每经编辑董兴生主业为职业教育的ST开元(SZ300338,股价4 7元,市值18 17亿元,以下简...
2023-01-12 -
焦点观察:莱茵体育控股股东已减持1571万股股票 减持比例1.22%
1月11日晚间,莱茵达体育发展股份有限公司发布公告称,该公司控股股东近期共减持公司15,710,000股股票,...
2023-01-11 -
全球最新:思博伦GNSS模拟器与NI LabVIEW的集成
NI是行业领先的测试编排(Orchestration)和自动化平台,通过NI的LabVIEW,可以轻松实现对思博伦GNSS模...
2023-01-11 -
环球热推荐:二手房周报 | 15城成交低位持稳,京深杭规模环比下降(01.02-01.08)
2023年第2周15个重点监测城市成交115 2万平方米。本周成交与第1周持平,环比上周1%。一线城市北京和深...
2023-01-11 -
阳光房地产基金(00435.HK)拟7.48亿港元收购西九龙物业
格隆汇1月11日丨阳光房地产基金(00435 HK)宣布,于2023年1月11日,买方(一间由阳光房地产基金全资拥有...
2023-01-11
阅读排行
资讯播报
- 【速看料】保利发展2022年签约金...
- 环球讯息:浙江:计划3月后体育...
- 世界动态:商务部、央行:便利各...
- 世界热推荐:快讯丨迪马股份:新...
- 当前观点:迪马股份新增累计涉及...
- 全球百事通!蒙娜丽莎拟用10亿闲...
- 天地源拟定增募资12.5亿元 将用...
- 【环球新要闻】中原:经纪人指数...
- 最新:中国举重博物馆在广东东莞...
- 新疆博斯腾湖30万亩芦苇喜获丰收...
- 2023年全国帆船锦标赛收官 ILCA...
- 豫园股份:控股股东复星高科技质...
- 环球讯息:湖州吴兴区一宗宅地1....
- 上海银保监局:1-11月辖内保险公...
- 微速讯:运动员在内容创造领域如...
- 【世界速看料】咸阳城投30亿元私...
- 当前播报:最新研究:物种灭绝对...
- 焦点滚动:重庆物流园长江经济带...
- 环球热头条丨国脚吴少聪加盟土超...
- 天津城投集团10亿元超短期融资券...
- 世界即时:长春存量住宅用地共39...
- 世界观天下!马来西亚羽毛球公开...
- 视焦点讯!香港数码港成立Web3.0...
- 当前观点:湖北体育博物馆开馆 ...
- 英雄联盟崩溃问题和显示器当前分...
- 鸿蒙os升级用户超过1.5亿 新增...
- 世界实时:四川:预期2023年GDP...
- 大手笔送黄金!新日电动车新春营...
- 全自动闪测仪专精特新企业——博...
- 【全球报资讯】广州花都银锣湾广...
- 快报:江西:预2022年GDP增长5%...
- 当前头条:全国各地区最低工资标...
- 全球播报:北京亦庄国际150亿元小...
- 当前报道:二〇二二年金融统计数...
- 第六期全国“公安楷模”群像:以...
- 环球关注:新动力:公司目前首条...
- 辉山奶粉品牌声量大涨 暖心营销...
- 天天快资讯丨丹东:公积金贷款购...
- 海宁城投8亿元中期票据拟付息 ...
- 当前讯息:《苦菜花》讲述了什么...
- 去年卖地收入少了两万亿! 今年...
- 春节给孩子囤高培学生奶粉 学习...
- 世界讯息:《花开半夏》小说大结...
- 余秋雨是谁?余秋雨简介
- 百事通!交行借记卡是什么?有什...
- 什么是发票?如何开具发票?
- 世界今热点:《英雄联盟》新版符...
- 苹果14系统什么时候更新?不知道...
- 金在中原名叫什么?金在中的身世...
- 世界关注:《韫色过浓》讲述了怎...
- 天天滚动:熟石灰密度是多少?关...
- 每日热点:你知道怪物猎人p3修改...
- 天天关注:上海浦东游泳馆有哪些...
- 大年初一早上吃什么最吉利?一起...
- 最新资讯:使命召唤8秘籍详解 ...
- 天天简讯:锦江乐园门票要多少?...
- 环球百事通!什么是数组的长度?...
- 【快播报】乐昌古佛岩你去过吗?...
- 全球快播:古琴台你知道吗?古琴...
- 蓝月至尊版能赚钱吗?一起快来看...
- 家和万事兴十字绣挂在什么位置好...
- 李铁案重大突破,曝深圳队两任老...
- 当前热门:美凯龙或易主建发 仍...
- 焦点!中骏集团股价涨超5% 完成...
- 天天要闻:净利连降三年,招商蛇...
- 今日热议:新春走基层丨厦门北站...
- 环球播报:强化责任担当 坚持真...
- “热腾腾”的农牧民运动会
- 每日看点!新华全媒+|“荧光绿”...
- 全球微头条丨河北:2022年企业上...
- 今日热讯:湖南衡阳县推进特色产...
- 速递!只考虑3天,1家8口嫌租房...
- 膜法世家携手江南大学云南溯源,...
- 宁波市2022年筹建保障性租赁住房...
- 今日讯!临沂城投4亿元超短期融...
- 当前快看:远洋集团:去年销售额...
- 全球热议:央行:2022年人民币存...
- 环球快看:龚正:上海5年建设筹...
- 世界速看:雅辰酒店集团宣布2023...
- 福星股份增发方案藏蹊跷 定向增...
- 广州居民身份证数字相片回执会过...
- 在外地拍摄的身份证相片可以在广...
- 速讯:财面儿丨大悦城子公司出售...
- 世界消息!合生创展集团12月到期...
- 在广东省内拍的相片回执能办理身...
- 尚没有传送渠道 广东省外居民身...
- 全球快看点丨异动点评:纯碱09暴...
- 焦点消息!政策利好频发 房企流...
- 焦点快播:户外运动爱好者必须了...
- 焦点消息!粤港澳全运会竞赛规程...
- 环球讯息:郑钦文晋级将战温网冠军
- 体育地标“成”之不易
- 环球观察:女排超级联赛探路前行
- 环球资讯:深业物业递表证监会 ...
- 每日观点:张玉宁新赛季留守国安...
- 焦点报道:中国拯救了450多万人的...
- 当前热文:国羽全主力出击马来西...
- 巴黎奥运女足预选赛赛制敲定 中...
- 天天新动态:中原建业集中签约27...
- 中国足球(北方)训练基地落户辽...