综述:基于深度强化学习的自动驾驶算法
这是 21 年的一篇综述文章,可以算得上是最前沿的自动驾驶技术综述。这几年随着深度表征学习的发展,强化学习领域也得到了加强。本文会对目前最先进的自动驾驶 DRL 算法进行汇总和分类。
论文标题:
Deep Reinforcement Learning for Autonomous Driving: A Survey
论文链接:
https://arxiv.org/abs/2002.00444
——
01
简介
——
自动驾驶系统(AD system),由多个级别的感知和控制任务组成,目前在感知方面,已经可以通过深度学习架构来实现。
但在控制层面,经典的监督学习已经不再使用,因为代理需要在每一个瞬间做出动作决策,这些决策可能会改变场景条件。
▲
自动驾驶各级别的任务
—— 02
AD system 的组成 ——
2.1 感知模块(Preception Module)
感知模块的目标是创建环境状态的中间级别表示(例如所有障碍物和代理的鸟瞰图),稍后将由最终产生驾驶策略的决策系统使用。该状态将包括车道位置、可行驶区域、代理(例如汽车和行人)的位置、交通信号灯的状态等。感知中的不确定性传播到信息链的其余部分。强大的传感对于安全至关重要,因此使用冗余源可以提高检测的信心。这是通过语义分割、运动估计、深度估计、污点检测等几种感知任务的组合来实现的,这些任务可以有效地统一成一个多任务模型。
焉知科技
,赞
7▲
多视角相机融合的鸟瞰
2.2 场景理解(Scene Understanding)
该模块的作用是将感知模块获得的信息映射到高级动作或决策层。该模块旨在提供对场景的更高层次的理解,通过融合异构传感器源(如激光雷达、相机、雷达、超声波),抽象和概括场景信息,为决策制定提供简化的信息。
2.3 定位和建图(Localization and Mapping)定位和建图技术,又称 SLAM 是自动驾驶的关键技术之一。由于问题的规模,传统的 SLAM 技术通过语义对象检测得到增强,以实现可靠的消歧。此外,局部高清地图(HD maps)可以用作物体检测的先验。
2.4 规划和推动策略(Planning and Driving Policy)
轨迹规划是自动驾驶中的关键模块,在高清地图或基于 GPS 的地图上计划路线,并引导代理生成运动层的命令。经典运动计划会忽略环境动态和差分约束,因此类似于 A* 算法之类的基于 Djisktra 的算法在此问题中并不适用。而快速探索随机树(RRT)通过随机采样和无障碍路径生成来探索配置空间。目前有多种版本的 RRT 被用于自动驾驶管道中的运动规划。
2.5 控制(Control)这是最底层的运动控制,即汽车的加速加速,方向盘的转动角度,以及刹车。目前的车辆控制通常是基于经典的最优控制理论,通过状态空间方程
中的汽车当前状态
和 控制输入量
来控制汽车。此方法通常使用 MPC 模型和 PID 控制器使车辆跟随轨迹。但是目前自动驾驶车辆通常使用的是强化学习,该方法的好处是可以处理随机控制问题以及具有未知奖励和状态转移概率的不适定问题。更多此方面的内容推荐阅读综述文
[1]
。
—— 03
强化学习(RL)是于 监督学习(Sueprvised Learning)和非监督学习(Unsupervised Learning)之外的第三种机器学习(Machine Learning)方式。RL 通过一个代理来完成行动策略。代理的目标是最大化在其生命周期内收到的累积奖励。代理可以通过利用了解不同状态-动作对的预期效用(即预期未来奖励的折扣和)的知识来逐渐增加其长期奖励。
在形式化涉及单个 RL 代理的顺序决策问题时,马尔可夫决策过程 (MDP) 是最流行的解决方法。MDP 由一个状态集合
、一个动作集合
、一个转移函数
和一个奖励函数
组成。通过目标是找到最优策略 ,从而产生最高的折扣奖励总和期望值:
其中,
是遵循策略
的状态值方程,
是折扣系数,
,
用于控制代理如何看待未来的奖励,低
值鼓励代理人的短视行为,其中代理人旨在最大化短期奖励,而高
值导致代理人更具前瞻性并在更长的时间范围内最大化奖励。
为时间步数,它可以是有限的也可以是无限的。
另一个与状态函数方程相关的是状态-动作方程,又称为“Q值”:
▲
MDP 决策的组成部分和关系图
在许多现实世界的应用领域中,智能体不可能观察到环境状态的所有特征;在这种情况下,决策问题被表述为部分可观察的马尔可夫决策过程(POMDP)。解决强化学习任务意味着找到一个策略
,该策略使状态空间中轨迹上的期望折扣总和最大化。
RL 代理可以直接学习价值函数估计、策略和/或环境模型。动态规划(DP)算法可用于在给定环境模型的奖励和转移函数方面计算最优策略。与 DP 不同,在 MonteCarlo 方法中没有完整环境知识的假设。蒙特卡洛方法在逐集意义上是增量的。情节完成后,价值估计和政策被更新。
另一方面,时间差(TD)方法在逐步意义上是增量的,使其适用于非情节场景。与蒙特卡罗方法一样,TD 方法可以直接从原始经验中学习,而无需环境动态模型。与 DP 一样,TD 方法基于其他估计来学习它们的估计。
文章对于 RL 和 DRL 的算法进行了综合性的概述,这里不做详细的解释,建议系统性的学习这些算法。
——
04
自动驾驶任务中的强化学习 ——
在自动驾驶中,RL 可以完成的任务有:控制器优化、路径规划和轨迹优化、运动规划和动态路径规划、为复杂导航任务开发高级驾驶策略、高速公路、交叉路口、合并和拆分的基于场景的策略学习,预测行人、车辆等交通参与者的意图,并最终找到确保安全和执行风险估计的策略。
4.1 状态空间、动作空间和奖励
为了成功地将 DRL 应用于自动驾驶任务,设计适当的状态空间、动作空间和奖励函数非常重要。
4.1.2 状态空间
自动驾驶汽车常用的状态空间特征包括:本车的位置、航向和速度,以及本车的传感器视野范围内的其他障碍物。此外,我们通常使用一个以自主车辆为中心的坐标系,并在其中增强车道信息,路径曲率、自主的过去和未来轨迹、纵向信息等。我们通常会使用一个鸟瞰图来展示这些信息。
▲
鸟瞰图
4.1.3 动作空间
自主车辆的控制策略需要操纵一系列执行器,比如方向盘,油门和刹车(暂时不考虑其他的执行器)。有一点需要注意的是,这些控制器都是在连续空间中运行的,而大多数 DRL 控制器属于离散空间。因此我们需要选择合适的时间步长。
奖励
为自动驾驶的 DRL 代理设计奖励函数仍然是一个悬而未决的问题。AD 任务的标准示例包括:向目的地行驶的距离 、本车的速度、使本车保持静止、与其他道路使用者或场景对象的碰撞,人行道上的违规行为,保持在车道上,保持舒适和稳定性,同时避免极端加速、制动或转向,并遵守交通规则。
4.2 运动规划和轨迹优化
运动规划是确保目标点和目的地点之间存在路径的任务。但是动态环境和变化的车辆动力学中的路径规划是自动驾驶中的一个难题,比如通过十字路口,或者并入高速公路。有许多文章在这方面做了尝试,并获得了不错的效果,比如论文
[4] [5] [6] [7]。
4.3 模拟器和场景生成工具
自动驾驶数据集使用包含图像、标签对的训练集来处理监督学习设置,用于各种模式。强化学习需要一个可以恢复状态-动作对的环境,同时分别对车辆状态、环境以及环境和代理的运动和动作的随机性进行建模。各种模拟器被积极用于训练和验证强化学习算法。具体信息如下:
—— 05
此部分内容我目前不会接触到,因此先留个坑,等以后再填。
参考文献
[1] A Survey of Deep Learning Applications to Autonomous Vehicle Control:
https://ieeexplore.ieee.org/abstract/document/8951131?casa_token=fwUZxwU0Eo8AAAAA:B
[2] End-to-End Deep Reinforcement Learning for Lane Keeping Assist:https://arxiv.org/abs/1612.04340
[3] Deep Reinforcement Learning framework for Autonomous Driving:https://www.ingentaconnect.com/content/ist/ei/2017/00002017/00000019/art00012
[4] A Reinforcement Learning based Approach for Automated Lane Change Maneuvers:https://ieeexplore.ieee.org/abstract/document/8500556?casa_token=OcyB7gHOxcAAAAAA:JrwO6
[5] Formulation of deep reinforcement learning architecture toward autonomous driving for on-ramp merge:https://ieeexplore.ieee.org/abstract/document/8317735?casa_token=HaEyBLwaSU0AAAAA:5
[6] A Multiple-Goal Reinforcement Learning Method for Complex Vehicle Overtaking Maneuvers:https://ieeexplore.ieee.org/abstract/document/5710424?casa_token=Y-bJbe3K9r0AAAAA:ZNo
[7] Navigating Occluded Intersections with Autonomous Vehicles Using Deep Reinforcement Learning:https://ieeexplore.ieee.org/abstract/document/8461233?casa_token=uuC5uVdLp60AAAAA:6fr7
[8] Reinforcement Learning with A* and a Deep Heuristic:https://arxiv.org/abs/1811.07745
[9] CARLA: An Open Urban Driving Simulator:https://proceedings.mlr.press/v78/dosovitskiy17a.html
[10] TORCS - The Open Racing Car Simulator:https://sourceforge.net/projects/torcs/
[11] MADRaS Multi-Agent DRiving Simulato:https://www.opensourceagenda.com/projects/madras
[12] Microscopic Traffic Simulation using SUMO:https://ieeexplore.ieee.org/abstract/document/8569938?casa_token=1z4z-bT6kTsAAAAA:BdTO6tJB4xEgr_EO0CPveWlForEQHJWyprok3uyy3DssqzT-7Eh-pr7H__3DOJPDdpuIVUr7Lw
[13] Flow: Architecture and Benchmarking for Reinforcement Learning in Traffic Control:https://www.researchgate.net/profile/Abdul-Rahman-Kreidieh/publication/320441979_Flow_Archite
责任编辑:hnmd003
相关阅读
-
天天热文:基于NSGA-Ⅱ算法对发动机噪声激励下的整车声学包优化
摘要:通过整车声学包合理设计能有效的改善发动机传至车内的噪声。基于统计能量法,利用Hypermesh和VAOn...
2022-06-27 -
当前观察:平安不动产“借新还旧”2022年第三期15亿公司债票面利率定为4.10%
中华网财经6月27日讯深交所消息,近日,平安不动产有限公司披露2022年公开发行公司债券(面向专业投资者...
2022-06-27 -
今日热议:南通启东2宗宅地8.43亿挂牌 未设新房限价将于7月26日出让
6月24日,南通启东市吕四港镇挂牌2宗住宅地,将于7月26日采用“限地价+摇号”方式出让,均未设新房限价...
2022-06-27 -
【环球速看料】济南城市建设集团20亿公司债券发行结束 票面利率3.75%
6月24日,济南城市建设集团有限公司发布公开发行2022年可续期公司债券(第二期)发行结果公告。据观点新...
2022-06-27 -
世界速看:一周公告合辑丨偿债高峰来袭 房企流动性压力持续
鲁商服务通过港交所上市聆讯。世茂服务2021年收入83 434亿元同比增长66%。慕思股份今日上市发行价格38 93元 股
2022-06-27 -
引来阵阵叫好声 互联网账号“一键解绑”手机号被一些人看作是“最值得期待的服务”
据媒体报道,中国信息通信研究院近期上线一键解绑功能,用户可通过手机号查询注册绑定的互联网应用账号...
2022-06-27 -
热议:2021年全国住房公积金缴存额2.9万亿元 同比增长11.24%
6月24日,住房和城乡建设部、财政部、中国人民银行联合发布《全国住房公积金2021年年度报告》。2021年,...
2022-06-27 -
全球新资讯:鲁商生活服务:拟全球发售3334万股股份 发售价5.30-7.92港元
6月27日,鲁商生活服务股份有限公司发布全球发售公告。公告显示,公司拟全球发售3334万股股份,其中香港...
2022-06-27 -
环球微速讯:银亿股份:已进入《重整计划》执行阶段 完成资本公积金转增股本方案
6月26日,银亿股份有限公司发布关于公司重整计划执行进展的公告。公告显示,关于资本公积金转增股本方案...
2022-06-27 -
今日热门!广东:1—5月房地产开发投资0.60万亿元,同比下降3.2%
6月24日,广东统计信息网公布2022年1—5月广东房地产市场运行简况。1—5月,广东完成房地产开发投资0 6...
2022-06-27 -
结合区域实际和群众需求 丰台国有房屋租金减免第一阶段进度已达100%
北京市丰台区1+3+N政策组合拳已在多个领域持续推进。截至6月23日,丰台国有房屋租金减免第一阶段进度已...
2022-06-27 -
观速讯丨鲁商服务拟全球发售3334万股 发售价5.30-7.92港元
6月27日,鲁商生活服务股份有限公司公告称,该公司拟全球发售3334万股股份,其中香港发售股份333 4万股...
2022-06-27
阅读排行
资讯播报
- 天天即时:中国房企巨头信用接连...
- 今日要闻!方便跨城买房 多地公...
- 【速看料】中房协搭建平台 下月...
- 世界播报:贝壳重生
- 世界今亮点!多地“解绑”非中心...
- 视点!锂电池自放电测量方法:动...
- 【世界时快讯】【地评线】中安时...
- 环球快讯:【2022中国有约】宁夏...
- 天天热文:基于NSGA-Ⅱ算法对发...
- 【天天热闻】损害大、成瘾快、花...
- 环球最新:广西启动花样滑冰“选...
- 每日聚焦:“在突破中传承,在传...
- 每日报道:男选手19年来首次颗粒...
- 当前速读:华裔乒乓球运动员倪夏...
- 每日热门:游泳世锦赛,中国跳水...
- 快报:【地评线】紫金e评:“好...
- 当前动态:北京金泰地产拟底价575...
- 焦点滚动:绿景控股正式退市,公...
- 每日视讯:国内首发┃整车级LTE-...
- 【时快讯】公维洁:强制性国家标...
- 全球快报:【大美边疆行】乌拉盖...
- 全球简讯:合肥松绑楼市“放大招...
- 当前速读:锂电池自放电测量方法...
- 今日播报!公务员进村卖房:没有销...
- 华英会两大公会——江晨&腾飞公...
- 天天速讯:游泳世锦赛:中国花游...
- 每日简讯:津门虎队赢得两连胜
- 当前热议!“混编”国足将出战东亚杯
- 世界热资讯!专为大型电动汽车打...
- 当前滚动:2022年第二届银川沿黄...
- 全球热讯:游泳世锦赛花游项目结...
- 每日热闻!荣盛发展:拟4.92亿元...
- 【世界热闻】雅居乐获得8.94亿港...
- 每日速递:领地控股:已根据交换...
- 当前信息:“天空地网”全覆盖监...
- 环球热资讯!场边VAR设备被晒爆...
- 全球视点!麒麟电池相关专利情况
- 当前播报:建发物业:张国钧辞任...
- 世界时讯:大美边疆|他们,守护...
- 天天观热点:荣万家:刘勇罡因个...
- 世界热文:大美边疆行·黑龙江丨...
- 每日热议!空气悬挂在新能源汽车...
- 每日关注!国内唯一“三高一多”...
- 全球球精选!守好“中国粮仓” ...
- 仁膳和元酵素在人体的功用,不可不知!
- 新五年 新玩法 新生态|《大国...
- 爱慕股份旗下女士家居服合集,夏...
- 广东华兴银行亮相第十一届金交会...
- 芙艾联合艾尔建学苑成功举办2022...
- 世界微头条丨2022年离校未就业高...
- 当前讯息:太不容易!别辜负TA~
- 世界视讯!【走进县城看发展】河...
- 【独家】新华全媒+|把饭碗牢牢端...
- 全球快报:成都大运会延期至2023...
- 【天天快播报】南京:计划将筹集...
- 全球快资讯:中南建设:控股股东...
- 世界热文:夜读·房企融资|中国...
- 世界今日讯!西门子工程咨询服务...
- 世界微头条丨万科斥资约5179.79...
- 今日播报!融创房地产:“PR融创0...
- 环球聚焦:不撞?怎么知道汽车安...
- 今亮点!再次征战世预赛 中国...
- 世界观热点:上海汽检顺利完成20...
- 【快播报】上海汽检汽车NVH开发...
- 滚动:国乒WTT冠军赛名单出炉:...
- 环球新动态:第31届世界大学生夏...
- 速讯:嘎玛顿东:我的家在高原,...
- 热门:三人篮球世界杯:小组赛1...
- 热文:学习总书记用典|习近平在...
- 天天观天下!一场中超比赛之后,...
- 环球滚动:金观平:坚持防汛抗旱...
- 每日观点:【地评线】太阳鸟时评...
- 世界速读:商用车惯性试验台
- 天下秀旗下虹宇宙联手艾菲奖,开...
- 大众通信云呼小号入驻华为云云商...
- 福瑞达生物股份荣膺“2021山东社...
- 福瑞达生物股份荣获2021年度“美...
- 共祭中华人文始祖 同品金徽美酒...
- 膜法世家牵手王心凌,实力出圈全...
- 中安建培:赋能建工企业 成就职...
- 饮水升级|昆仑山矿泉水连续6年...
- 随着支付行业大环境改变,代理商...
- 专访REVA执行总裁Kunov.Alidor:...
- “猕猴桃女孩”请查收脱毛指令!...
- 波司登发布21/22财年财报:营收...
- 云启点“支付+”场景拓展,助力...
- 依托深圳供电局“双碳大脑”平台...
- 空间公式 创想装搭丨2022东鹏空...
- 多数跨国公司仍将中国视为首要市...
- 开护肤品店,当然选有保障的嘉柏...
- LG新能源新建电池研发中心 扩大...
- 全球要闻:平安不动产:拟发行15...
- 焦点讯息:恒大地产:拟召开“15...
- 今热点:中国奥园:回笼资金1.05...
- 视焦点讯!和讯曝财报丨佳兆业美...
- 1—5月我国对外承包工程完成营业...
- 看热讯:中国双胞胎组合王柳懿/...
- 【全球时快讯】北京城建:25亿元...
- 对外开放不断扩大 我国基本建立...
- 焦点日报:怎么报考、待遇如何、...