全球热讯:深度强化学习处理真实世界的自动驾驶
arXiv论文“Tackling Real-World Autonomous Driving using Deep Reinforcement Learning“,上传于2022年7月5日,作者来自意大利的帕尔马大学Vislab和安霸公司(收购Vislab)。
在典型的自主驾驶流水线中,规控系统代表了两个最关键的组件,其中传感器检索的数据和感知算法处理的数据用于实现安全舒适的自动驾驶行为。特别是,规划模块预测自动驾驶汽车在执行正确的高级操作时应遵循的路径,同时控制系统执行一系列低级操作,控制转向、油门和制动。
【资料图】
这项工作提出一种无模型(model- free)
深度强化学习(DRL)
规划器,训练一个预测加速度和转向角的神经网络,从而获得一个用自主驾驶汽车的定位和感知算法输出的数据驾驶车辆的单个模块。
特别是,经过充分模拟训练的系统能够在模拟和真实(帕尔马城区)无障碍环境中平稳安全地驾驶,证明了该系统具有良好的泛化能力,也可以在训练场景以外的环境驾驶。
此外,为了将系统部署在真实的自动驾驶汽车上,并减少模拟性能和真实性能之间的差距,作者还开发一个由微型神经网络表示的模块,该模块能够在模拟训练期间复现真实环境的汽车动态行为。
在过去几十年中,从简单的、基于规则的方法到实现基于AI的智能系统,车辆自动化水平的提高取得了巨大进展。特别是,这些系统旨在解决基于规则的方法的主要局限性,即缺乏与其他道路使用者的协商和交互,以及对场景动态性理解较差。
强化学习(RL)
广泛用于解决使用离散控制空间输出的任务,如围棋、Atari游戏或国际象棋以及连续控制空间的自主驾驶。特别是,RL算法广泛应用于自主驾驶领域,用于开发决策和机动执行系统,如主动变道、车道保持、超车机动、十字路口和环岛处理等。本文采用D-A3C的延迟版本,属于所谓的Actor-Critics算法家族。特别由两个不同的实体组成:Actor和Critics。Actor的目的是选择智体必须执行的动作,而Critics 估计状态值函数,即智体特定状态的良好程度。换句话说,Actor是动作上的概率分布π(a | s;θπ)(其中θ是网络参数),critics是估计状态值函数v(st;θv)=E(Rt | st),其中R是期待的回报。
内部开发的高清地图实现了仿真模拟器;场景的示例如图a所示,是在真实自动驾驶汽车测试系统的部分地图区域,而图b显示智体感知的周围视图,对应于50×50米的区域,被分为四个通道:障碍物(图c),可驾驶空间(图d)、智体应遵循的路径(图e)和停止线(图f)。模拟器中高清地图允许检索有关外部环境的多个信息,如位置或车道数、道路限速等。
专注于实现平稳安全的驾驶风格,因此在静态场景中训练智体,不包括障碍物或其他道路使用者,学习遵循路线并遵守速度限制。
使用如图所示的神经网络对智体进行训练,每100毫秒预测一次转向角和加速度。分为两个子模块:第一个子模块能够定义转向角sa,第二个子模块用于定义加速度acc。这两个子模块的输入由4个通道(可驾驶空间、路径、障碍物和停止线)表示,对应于智体的周围视图。每个视觉输入通道包含4个84×84像素的图像,以便为智体提供过去状态的历史。与此视觉输入一起,网络接收5个标量参数,包括目标速度(道路速度限制)、智体的当前速度、当前速度-目标速度比,以及与转向角和加速度相关的最后动作。
为了保证探索(exploration),采用两个高斯分布对两个子模块输出进行采样,获得相对加速度(acc=N(μacc,σacc))和转向角(sa=N(μsa,σsa))。标准差σacc和σsa在训练阶段由神经网络进行预测和调制,估计模型的不确定性。此外,该网络使用两个不同的奖励函数R-acc-t和R-sa-t,分别与加速度和转向角相关,生成相应的状态值估计(vacc和vsa)。
神经网络在帕尔马城市的四个场景进行训练。对于每个场景,创建多个实例,智体在这些实例上相互独立。每个智体遵循运动学自行车模型,取值转向角为[-0.2,+0.2],加速度为[-2.0 m,+2.0 m]。在该片段开始时,每个智体以随机速度([0.0, 8.0])开始驾驶,并遵循其预定路径,并遵守道路速度限制。该城区的道路速度限制在4 ms到8.3 ms之间。
最后,由于训练场景中没有障碍物,因此片段可以在以下一种终端状态下结束:
达成目标
:智体达到最终目标位置。驾驶出道路
:智体超出其预定路径,错误地预测转向角。时间到了
:完成片段的时间失效;这主要是由于加速度输出的谨慎预测,驾驶速度低于道路速度限制。为了获得能够在模拟和真实环境中顺利驾驶汽车的策略,奖励成型对实现预期行为至关重要。特别是,定义两个不同的奖励函数来分别评估两个动作:R-acc-t和R-sa-t分别与加速度和转向角有关,定义如下:
其中
R-sa-t和R-acc-t在公式中都有一个元素,用于惩罚两个连续动作,其加速度和转向角的差值分别大于某个阈值δacc和δsa。特别是,两个连续加速度之间的差值计算如下:∆acc=| acc(t)− acc(t− 1) | ,而racc_indecision的定义如下:
相反,转向角的两个连续预测之间的差值计算为∆sa=| sa(t)− sa(t− 1)|, 而 rsa_indecision定义如下:
最后,R-acc-t和R-sa-t取决于智体实现的终端状态:
达成目标:代理达到目标位置,因此两个奖励的rterminal设置为+1.0;
驾驶出道路:智能体偏离其路径,主要是由于对转向角的预测不准确。因此,将负信号-1.0指定给Rsa,t,负信号0.0给R-acc-t;
时间到了:完成该片段的可用时间失效,这主要是由于智体的加速预测过于谨慎;因此,rterminal假设−1.0给R-acc-t,0.0给R-sa-t。
与模拟器相关的主要问题之一在于模拟数据和真实数据之间的差异,这是由于难以在模拟器内真实再现真实世界的情况造成的。为了克服这个问题,用一个合成模拟器以简化神经网络的输入,并减少模拟数据和真实数据之间的差距。
事实上,作为神经网络输入的4个通道(障碍物、驾驶空间、路径和停止线)包含的信息可以通过感知和定位算法以及嵌入在真实自动驾驶汽车上的高清地图轻松再现。
此外,使用模拟器的另一个相关问题与模拟智体执行目标动作与自动驾驶汽车执行该命令的两个方式不同有关。实际上,在时间t计算的目标动作,理想情况下可以在模拟的同一精确时刻立即生效。
不同的是,这不会发生在真实车辆上,因为真实情况是,此类目标动作将以某种动态执行,从而导致执行延迟(t+δ)。因此,有必要在仿真中引入此类响应时间,以便在真正的自动驾驶汽车上训练智体去处理此类延迟。
为此,为了实现更真实的行为,首先训练智体,将低通滤波器添加到智体必须执行的神经网络预测目标动作中。如图所示,蓝色曲线表示在模拟中采用目标动作(其示例的转向角)发生的理想和瞬时响应时间。然后,引入低通滤波器后,绿色曲线识别模拟的智体响应时间。相反,橙色曲线显示自动驾驶车辆在执行相同转向动作的行为。然而,可以从图中注意到,模拟车辆和真实车辆之间的响应时间差异仍然相关。
事实上,神经网络预先设定的加速度和转向角点不是可行的命令,并且没有考虑一些因素,例如系统的惯性、执行器的延迟和其他非理想因素。因此,为了尽可能真实地再现真实车辆的动力学,开发一个由3个全连接层(深度响应)组成的小型神经网络组成的模型。深度响应行为的曲线图如上图的红色虚线所示,可以注意到与代表真实自动驾驶汽车的橙色曲线非常相似。
鉴于训练场景没有障碍物和交通车辆,所描述的问题对于转向角的活动更为明显,但同样的想法已应用于加速度输出。
用自动驾驶汽车上收集的数据集训练深度响应模型,其中输入对应于人类驾驶员给车辆的命令(加速器压力和方向盘转动),输出对应于车辆的油门、制动和弯曲,可以用GPS、里程计或其他技术测量。通过这种方式,将此类模型嵌入模拟器中,获得更具可扩展性的系统,从而再现自动驾驶汽车的行为。
因此,深度响应模块对于转向角的校正至关重要,但即使以不太明显的方式,对于加速度也是必要的,并且随着障碍物的引入,这一点将清晰可见。
在真实数据上测试了两种不同的策略,以验证深度响应模型对系统的影响。随后,验证车辆正确地沿着路径行驶,并且遵守高清地图得到的速度限制。最后,证明通过
模仿学习(Imitation Learning)
对神经网络进行预训练可以显著缩短总训练时间。策略如下:
策略1:不使用深度响应模型进行训练,但使用低通滤波器模拟真实车辆对目标动作的响应。
策略2:通过引入深度响应模型进行训练,确保更现实的动态。
在模拟中执行的测试对这两种策略都产生了良好的结果。事实上,无论是在训练过的场景,还是在没有训练的地图区域,智体都能够在100%的情况下以平稳安全的行为达到目标。
通过在真实场景中测试策略,得到了不同的结果。策略1无法处理车辆动力学,与模拟中的智体相比,其执行预测动作的方式不同;通过这种方式,策略1将观察到其预测结果的意外状态,导致自动驾驶汽车上的含噪和不舒适行为。
这种行为也会影响系统的可靠性,事实上,有时需要人工协助以避免自动驾驶汽车驶出道路。
相反,在对自动驾驶汽车进行的所有真实测试中,策略2从未要求人类接管,因为知道车辆动态以及系统将如何演变为预测动作。唯一需要人为干预的情况是避免其他道路使用者;然而,这些情况不被视为失败,因为策略1和策略2都是在无障碍场景中训练的。
为了更好地理解策略1和策略2之间的差异,如图是神经网络预测的转向角以及在真实世界测试的短时窗口内到中心车道的距离。可以注意到这两种策略行为是完全不同的,策略1(蓝色曲线)与策略2(红色曲线)相比是嘈杂和不安全的,这证明了深度响应模块对于在真正自动驾驶汽车上部署策略至关重要。
为了克服RL的限制,即需要数百万片段才能达到最优解,通过模仿学习(IL)进行了预训练。此外,即使IL的趋势是训练大型模型,也使用相同的小型神经网络(约100万个参数),因为想法是继续使用RL框架训练系统,以确保更具鲁棒性和泛化能力。这样,不会增加硬件资源的使用,考虑到未来可能的多智体训练,这一点至关重要。
IL训练阶段使用的数据集由模拟智体生成,这些智体遵循基于规则的方法运动。特别是,对于弯曲,用pure pursuit的跟踪算法,其中智体的目的是沿着特定的航路点移动。相反,用IDM模型来控制智体的纵向加速度。
为了创建数据集,基于规则的智体在四个训练场景上运动,每100毫秒保存一次标量参数和四个视觉输入。相反,输出由pure pursuit算法和IDM模型给出。
与输出相对应的两个横向和纵向控件仅表示元组(μacc,μsa)。因此,在IL训练阶段,不估计标准差(σacc,σsa)的值,也不估计值函数(vacc,vsa)。这些特征以及深度响应模块在IL+RL训练阶段学习。
如图所示,展示从预训练阶段(蓝色曲线,IL+RL)开始训练同一神经网络,并和四种情况下RL(红色曲线,纯RL)结果比较。即使IL+RL训练需要的次数比纯RL少,并且趋势也更稳定,但这两种方法都取得良好的成功率(如图a)。
此外,图b中所示的奖励曲线证明,使用纯RL方法获得的策略(红色曲线)甚至没有达到更多训练时间的可接受解,而IL+RL策略在几个片段内达到最优解(图b中的蓝色曲线)。这种情况下,最优解由橙色虚线表示。该基线表示,用在4个场景执行50000片段的模拟智体获得的平均奖励。
模拟的智体遵循确定性规则,与收集IL预训练数据集的规则相同,即用pure pursuit规则做弯曲和IDM规则做纵向加速度。这两种方法之间的差距可能更明显,训练系统执行更复杂的机动,其中可能需要智体交互。
责任编辑:hnmd003
相关阅读
-
全球热讯:深度强化学习处理真实世界的自动驾驶
arXiv论文“TacklingReal-WorldAutonomousDrivingusingDeepReinforcementLearning“,上传于2022年7月5...
2022-07-19 -
世界热资讯!标准解读 | 消费者说不清道不明的“玄学”?如何科学评价车辆转向性能?
普通消费者聊到车辆的转向,往往只是这样的描述:“这车方向太轻 太沉 太虚”、“这车方向很贼”、“...
2022-07-19 -
【热闻】工程院V2X虚实融合场地测试系统在两项国际大会上连续亮相!
近日,由中汽中心工程院自主研发的V2X虚实融合场地测试系统连续在各大展会亮相。2022年7月9日-14日期间...
2022-07-19 -
全球热讯:深度强化学习处理真实世界的自动驾驶
arXiv论文“TacklingReal-WorldAutonomousDrivingusingDeepReinforcementLearning“,上传于2022年7月5...
2022-07-19 -
世界热资讯!标准解读 | 消费者说不清道不明的“玄学”?如何科学评价车辆转向性能?
普通消费者聊到车辆的转向,往往只是这样的描述:“这车方向太轻 太沉 太虚”、“这车方向很贼”、“...
2022-07-19 -
市场整体指标偏少惜售态度比较明显 全国碳排放权交易还有较大的发展空间
7月16日,全国碳排放权交易市场正式启动上线交易一周年。数据显示,截至7月14日,碳排放配额累计成交量1...
2022-07-19 -
“人货场”三者的关系被重构 新的供应链SAAS体系为行业发展带来了更多可能
疫情之下,一些企业面临着原材料、物流等价格上升,供应链不畅的问题。如何应对风险、破局发展,成为企...
2022-07-19 -
国内“顶流”腕表品牌CIGA design玺佳携手高端越野品牌坦克,带来全新SUV越野文化
2022年7月18日,中国新锐原创设计师腕表品牌CIGA design玺佳与长城汽车旗下高端越野品牌-坦克共同发布...
2022-07-19 -
环球速读:平安不动产7.5亿公司债将于7月26日付息 利率4.40%
观点网讯。7月19日,平安不动产有限公司发布2019年公司债券品种二2022年付息公告。观点新媒体获悉,本期...
2022-07-19 -
世界最新:永业企业底价5.09亿挂牌转让上海永业商业房地产60%股权
7月19日,上海联合产权交易所信息披露,上海永业企业集团拟转让子公司上海永业商业房地产发展有限公司60...
2022-07-19
阅读排行
资讯播报
- 观天下!徐州:家庭在市区购买14...
- 天天百事通!江苏淮安:首套首次...
- 细分且多元的消费市场 恐怕将是...
- 又火一城!爸爸糖持续火爆的密码...
- 健康营养好品质,永和豆浆陪你度...
- 全球即时:上坤地产:优先票据交...
- 环球实时:南玻A:第一大股东仍...
- 环球今日讯!早读拾光(7.19)丨...
- 环球看热讯:任长忠带领团队开展...
- 环球简讯:利润大降负债攀升 IPO...
- 当前热文:【奋斗者 正青春·一...
- 天天微头条丨北京上半年商品房销...
- 头条焦点:圆通速递:6月快递产...
- 看点:上交所:截至2021年底沪市...
- 世界观察:广州第二轮供地收官揽...
- 全球讯息:贵州面向海内外推出65...
- 每日快报!韵达控股:6月快递服务...
- 天天信息:虚实结合的 CMF 创新...
- 世界今亮点!智能网联汽车毫米波...
- 【热闻】工程院V2X虚实融合场地...
- 全球速看:中超赛事主办方催促相...
- 【世界速看料】上半年广东房地产...
- 每日聚焦:宝新金融:将竭力于三...
- 热文:全国首个智能网联汽车预期...
- 【天天热闻】南玻A:原董事张金...
- 【世界报资讯】ESR再回购42.16万...
- 天天热文:云南城投控股股东所持...
- 全球视讯!基于对当前市场整体环...
- 世界焦点!云南城投:公司正按计...
- 前沿资讯!男篮亚洲杯:中国男篮...
- 天天微速讯:重庆百货新设合资公...
- 全球快资讯:汇景控股:2022年到...
- 【全球时快讯】交房即交证、交地...
- 天天最资讯丨哈尔滨征求意见:对...
- 【速看料】蓝光发展控股股东近半...
- 微速讯:万科,又调整了一批城市...
- 今日热门!行业透视 | 6月房企...
- 世界滚动:万物云获证监会核准:...
- 【天天报资讯】张玉良:绿地集团...
- 全球播报:广东上半年房地产开发...
- 焦点观察:北京上半年房企到位资...
- 焦点播报:李宇嘉:应进一步加强...
- 环球速递!诚意到,暖意未到,广...
- 观察:西藏自治区拉萨市将举办环...
- 环球速读:重庆银行:“停贷事件...
- 今热点:天水:购房提取公积金时...
- 每日速讯:旭辉控股独立非执董林...
- 天天快看:德祥地产再回购100万...
- 世界今日讯!中指院:城市服务成...
- 今亮点!香港新地“NOVO LAND”...
- 全球聚焦:招商积余旗下中航物业...
- 世界球精选!豫园股份5亿元债券...
- 萨米特x中国家博会|回顾首日「高...
- 任拓大数据研究院解密内容增长贡...
- 乾佰纳:疤痕增生凸起怎么办?
- 百得胜水漆整家定制健康黑科技,...
- 焦点报道:土拍|广州集中供地:...
- 今日精选:【大国基理】用心用情...
- 每日热讯!未将房价款存入专用账...
- 短讯!广州年内第二轮供地吸金20...
- 观天下!中国这十年|最高检:对...
- 看热讯:中国这十年|最高检:纠...
- 观焦点:地产美元债持有人仅剩的...
- 观速讯丨快讯丨万达集团接盘烂尾...
- 维他奶不断深耕植物基产品 赢得...
- 环球观点:2022环拉萨城自行车大...
- 环球即时看!最高2万!哈尔滨拟...
- 实时:日本花滑选手羽生结弦将于...
- 世界快资讯:保利9.43亿元底价摘...
- 当前看点!珠江实业18亿元竞得广...
- 今日快讯:广州城投+广州宝信12....
- 天天观察:保利以总价约48.81亿...
- 2023年上海中小学暑假从7月1日开...
- “为上海搓澡”,杨烨炘又一行为...
- 优调夏日居家拖鞋推荐
- 正值冬病夏治的最佳时机 有相关...
- 全球观察:田径世锦赛:多项赛会...
- 生育一个健康的孩子不仅仅是女性...
- 环球速讯:广州第二批集中供地:...
- 环球观热点:轴电流的产生机理及...
- 【全球快播报】奥园集团:拟对“...
- 当前速读:马拉松最快成绩,撑杆...
- 环球热消息:越秀集团:15亿元超...
- 当前播报:别总盯着伊藤美诚,国...
- 全球观速讯丨华侨城:20亿元中票...
- 全球今亮点!人民幸福生活是最大...
- 中暑的“终极” 热射病导致全身...
- 世界快播:中国经济半年报解读:...
- 环球通讯!2025世界运动会正式进...
- 天天微头条丨WTT球星挑战赛:国...
- 【天天热闻】东扬精测系统(上海...
- 【环球时快讯】新希望集团:10亿...
- 先农坛还原历史景观 北京正在推...
- 环球速看:基于边频的发电机啸叫...
- 多元参与协调推进 北京中轴线申...
- 凤凰卫视女主持朱梓橦太惊艳,台...
- 汇源以产业振兴引领乡村振兴,获...
- 博洋家纺携手盖娅传说,助推东方...
- 海淀区培英小学办学实践研讨会成...
- 不避讳对于死亡的讨论 电影《人...