综述-图强化学习在混合自动化交通中的协同决策应用
论文“
Graph Reinforcement Learning Application to Co-operative Decision-Making in Mixed Autonomy Traffic: framework, Survey, and Challenges“,作者来自北理工、德国德累斯顿大学、新加坡南洋理工和瑞士ETH。
(相关资料图)
智能网联车(CAV)的正常运行对于未来智能运输系统的安全和效率至关重要。同时,过渡到全自动驾驶之前需要长时间的混合自动化交通,包括CAV(AV)和人类驾驶车辆(HV)。因此,CAV的协同决策,对于生成适当的驾驶行为,和提高混合自动化交通的安全性和效率,是至关重要的。近年来,深度强化学习(DRL)被广泛应用于解决决策问题。然而,现有的基于DRL的方法主要集中于解决单个CAV的决策。
在混合自动化交通中,现有的基于DRL的方法不能准确地表示车辆的交互影响以及对动态交通环境进行建模。为了解决这些缺点,本文提出一种用于混合自动化交通中CAV的多智体决策的图强化学习(GRL)方法。首先,设计了通用的模块化GRL框架。然后,对DRL和GRL方法进行了系统综述,重点介绍了最近研究遇到的问题。此外,基于所设计的框架,进一步对不同的GRL方法进行比较研究,验证GRL方法的有效性。结果表明,与DRL方法相比,GRL方法可以很好地优化CAV在混合自动化交通中的多智体决策性能。最后,总结挑战和未来的研究方向。
源代码下载可以在https://github.com/Jacklinkk/GraphCAV。
伯克利分校的开源软件Flow是一个基于DRL的混合自动化交通框架,它充当交通模拟器(例如Sumo和Aimsun)和RL库之间的接口。Flow框架不仅提供典型的交通场景,还为RL算法的开发和验证创建几个基准;它还支持道路网络文件(例如OpenStreetMap)的导入操作,模拟真实世界条件下的交通操作。
基于GRL的方法的主要特征可以概括如下:1)将混合自动化交通建模为图架构。特别地,车辆被视为图节点,而车辆的交互被视为图边。2) 采用GNN进行特征提取;提取的特征被馈送到策略网络以生成CAV的驾驶行为。许多研究用基于GRL的方法来生成协作行为。
根据输出水平,驾驶行为可分为两类:高级行为和低级控制命令。高级行为主要包括并线、超车和车道保持,而低级控制命令包括各种车辆控制方向的速度和加速度等。驾驶行为表现为一个动作空间,可分为离散动作空间和连续动作空间。
高级行为只能表示为离散的行为空间;而低级控制命令可以表示为离散的动作空间。DRL模块的不同策略生成方法,生成不同的行动空间,进而生成不同类别的驾驶行为。
连续动作空间由控制命令的特定值组成。例如,在高速公路场景中,连续动作空间可以定义为a= [at,t] ,其中at表示纵向加速度,t表示转向角。使用多维(或一维)向量对连续动作空间进行编码,其中每个编码位置表示控制命令。控制命令通常被限制在某个数值范围内,并且控制命令的特定值基于所采用的控制策略而定。连续动作空间可以以一定粒度离散化,但在这种情况下,必须考虑控制精度和动作空间维度之间的权衡。
GRL模块包含两个子模块:GNN模块和DRL模块。该模型使用图特征作为输入,输出策略作为动作选择的基础。
不同类型的DRL方法产生不同的驾驶策略类别。DRL方法可分为基于价值的方法和基于策略的方法。基于价值的方法仅适用于离散动作空间;这些方法旨在生成由不同动作价值组成的驾驶策略,然后根据每个可用动作的价值选择驾驶行为。基于策略的方法适用于离散和连续动作空间。可以生成这两种随机确定性驾驶策略,然后相应地选择驾驶行为。
基于DRL的方法在混合自动化交通的决策中非常流行。然而,当仅使用DRL来解决多智体决策和协同驾驶时,系统复杂性显著增加,并且难以对智体之间的关系进行建模。由于GNN可以获得拓扑关系,并有助于对多智体的相互影响进行建模,因此它在提高混合自动化交通中的决策性能方面具有巨大潜力。基于GRL的方法的详细结构如图所示:
在一个“高速公路闸道”场景中,输出驾驶行为表示为 一个用于控制自动驾驶车辆横向运动的高级变道命令列表。HVs和AVs的纵向控制均通过智能驾驶员模型(IDM)实现,而HVs的横向控制则通过SUMO的LC2013变道模型实现。
高速公路闸道方案是一种开环(非封闭)方案。除了节点特征矩阵和邻接矩阵之外,场景还包括索引矩阵(标注HV或者AV)。因此,图表征由节点特征矩阵、邻接矩阵和索引矩阵组成。
其驾驶行为被表征为离散的动作空间。在每个时间步,行动空间包括不同的变道指令。
车辆驾驶的目标是高效、安全地退出相应的匝道,同时将对HVs的影响降至最低。奖励函数由四部分组成:平均速度奖励、意图奖励、变道惩罚和碰撞惩罚。
在一个“8字形”场景中,输出驾驶行为是一个用于控制自动驾驶车纵向运动的低级控制命令列表,而HVs的纵向控制由IDM实现。
该场景作为由两个单车道环形网络组成交叉口的封闭表征。当车辆同时到达十字路口时,必须减速以遵守通行规则。这样降低网络中车辆的平均速度。在这种情况下,需要协同驾驶
提高车辆的平均速度,同时确保安全,以优化交叉口通行能力。
8字形场景是一个闭环场景,因此不需要索引矩阵。其邻接矩阵的推导方式与高速公路匝道场景相同,但节点特征矩阵不同。
其
驾驶行为表现为连续动作空间。
在每个时间步,动作空间由纵向加速度组成。
在所考虑的高速公路闸道和8字形两个场景中,奖励的定义受场景和任务绩效的影响(例如,总体交通效率、特定车道的交通效率、场景中特定类型车辆通行时间的缩短)。此外,对于混合自动驾驶交通中的多智体协同决策问题,必须考虑整体回报和个体回报之间的冲突。这包括具有不同主动性水平的人类驾驶员之间的社会交互和隐性协同作用。奖励函数的设计过程还需要考虑HVs和AVs的优先级,在设计损失函数时需要考虑这些优先级,以及涉及自动驾驶的法律法规的制定和稳健性。
未来智能网联车的研究应该集中在以下三点:(1)如何设计智能联网车队的轨迹控制算法和策略,以便车辆在红灯信号面前能够平稳减速,实现最小的停车次数、油耗和尾气排放量;(2) 如何充分利用车队信息优化信号时间方案,实现最小延误和最优交通效率的控制目标;(3) 如何与上下游交叉口兼容,将优化控制扩展到路网,并实时解决优化问题。
应考虑更复杂的车辆运动学和动力学模型,因为道路条件和车辆模型的参数对于准确评估车辆运动至关重要。
责任编辑:hnmd003
相关阅读
-
综述-图强化学习在混合自动化交通中的协同决策应用
论文“GraphReinforcementLearningApplicationtoCo-operativeDecision-MakinginMixedAutonomyTraffic:Framework,Survey,andChallenges“,作者
2022-11-24 -
当前速递!中国恒大:正与武汉江夏区沟通土地收回事宜 并将提出行政复议
11月24日,中国恒大集团就此前武汉江夏区政府收回其11宗土地事项进行说明,表示公司正与武汉市江夏区人...
2022-11-24 -
综述-图强化学习在混合自动化交通中的协同决策应用
论文“GraphReinforcementLearningApplicationtoCo-operativeDecision-MakinginMixedAutonomyTraffic:Framework,Survey,andChallenges“,作者
2022-11-24 -
今热点:越秀服务与广州地铁订立物管协议 三年服务费最高12.6亿元
11月24日,越秀地产股份有限公司公布2023年广州地铁物业管理及相关服务框架协议及2022年物业管理及增值...
2022-11-24 -
工商银行:6500亿支持!房地产又迎利好,六大行都出手!股份制银行为多个楼盘客户延期还本付息
工行与12家全国性房企签约提供意向性融资支持逾6500亿元。据上证报中国证券网报道,工商银行11月24日与...
2022-11-24
阅读排行
资讯播报
- 聚焦经济产业发展,浦东产业园区...
- 惠誉: 料明年内地基建投资保守...
- 全球观察:新华全媒+丨候鸟归湖...
- 前沿热点:银保监会:1-10月银行...
- 世界速递!建行与中交建、首开、...
- 全球热议:交通运输部、发改委:...
- 全球快看点丨京东物流根据股份奖...
- 今日看点:【我在厦门这十年】两...
- 世界要闻:漫话中国|这些正能量...
- 全球热推荐:漫话中国|一起守护...
- 今日最新!真招实招解决群众急难...
- 英雄联盟解说管泽元:世界杯最关...
- 厦门保利联发锦上170套住宅获批...
- 脱下戎装进沙海,植绿固沙惠民生...
- 时讯:中创物流公布部分董监高通...
- 工行向12家房企提供6550亿元意向...
- 德国球员吕迪格高抬腿跑步引发争...
- 超级食物藜麦登场,法米娜藜麦猫...
- 卡塔尔世界杯能处,奖金它是真发呀
- 环球观点:新华全媒+|金沙江:古...
- “16”条后续观察 | 房企美元...
- 世界今热点:民营房企融资再获支...
- 速递!青岛出台新一轮标准化创新...
- 从宏伟蓝图到生动现实 北京朝阳...
- 今日视点:卡塔尔世界杯 | 喀...
- 首届中国体育消费博览会(冬季展...
- 焦点热门:广东广州市——快速提...
- 遭建行呈请清盘 中梁控股:呈请...
- 国际象棋世团赛再传捷报 中国队...
- 当前热议!中国金茂:中国宏泰发...
- 全球快消息!巴西后卫席尔瓦:我...
- 【速看料】【在这片辽阔的土地上...
- 五方面着力提高京津冀区域全要素...
- 全球新动态:金融街北京限竞房项...
- 海南小镇:香草种植助力乡村振兴
- 全球快看:加速融合 南宁高水平...
- 甘肃兰州市——积极帮助企业解决...
- 世界今日报丨三峡坝区检察院——...
- 董明珠秘书孟羽童家庭背景怎么样...
- 气温骤降吹响“上新战”,秋冬快...
- 优调这双静音棉拖鞋,好穿不扰人
- 鲨鱼宝宝儿歌荣登UK英国音乐榜历...
- 冬季“干燥问题”来袭,选保湿面...
- 九方智投“九方数字人证券咨询方...
- 小白熊荣获“年度人气哺喂用品奖...
- 每日视讯:杭州萧山区上湘湖单元...
- 焦点信息:恒生指数公司:恒指ESG...
- 数字化营销趋势下,OTT如何更好...
- 今日热讯:德布劳内获全场最佳后...
- 世界球精选!“汽车测试网” 征稿
- 上海轩颂建筑荣获国标ISO质量体...
- 中铁装配子公司5.37亿元签署昆明...
- 当前热议!中洲控股监事陈星已累...
- 新鸿基2.96亿港元中标香港九龙观...
- 全球快资讯丨北京中关村电子城拟...
- 世界视讯!楼市迎多重利好!“金...
- 北京健康宝弹窗还能进入公共场所...
- 北京健康宝能否出火车站以火车站...
- 北京健康宝弹窗出京不能上飞机都...
- 播报:西班牙一场比赛进了7个!...
- 库尔图瓦扑出点球,比利时队首秀...
- 将迎卡塔尔世界杯首秀 C罗:想...
- 【世界报资讯】一目了然
- 世界速讯:“青年军”表现亮眼 ...
- 每日速看!日本队队长吉田麻也:...
- 每日消息!西班牙7:0哥斯达黎加 ...
- 世界观天下!极致传控!西班牙队...
- 天天看热讯:前方直击:日本赢德...
- 成都、攀枝花公积金一体化:异地...
- 焦点播报:杭州亚运会将补充招募...
- 上届亚军克罗地亚队与摩洛哥队互...
- 融信中国与融信服务和秀景园林续...
- 央行、银保监:支持开发性政策性...
- 克罗地亚战平摩洛哥 莫德里奇“...
- 赛事前瞻:C罗亮相欲创纪录 ...
- 雅居乐2.95亿股配售完成 所得款...
- 世界动态:栖霞建设2020年第一期...
- 天天观天下!葛洲坝拟发行2022年...
- 全球热头条丨家居丨泛城设计启动...
- 观察:中电光谷温州产业园与新世...
- 世界热议:湖州安吉县挂牌2宗商住...
- 帮助地球减负 共筑绿色家园 今...
- 天天时讯:新农艺绘丰收|内蒙古...
- 当前聚焦:乡村振兴看西安|小小...
- 每日速讯:工行将与龙湖、碧桂园...
- 实时焦点:兰溪城投8.13亿元竞得...
- 热议:新华全媒+|5G+工业互联网...
- 天天简讯:新能源开发建设成本下...
- 当前视讯!河南邓州:新市民在中...
- 世界热文:道中华丨“出圈”的泾...
- 今日热闻!中华企业拟挂牌转让上...
- AQUA爱克空气能热泵高性能低能耗...
- 桑扶兰联合博主为大胸女性发声,...
- 把握市场消费新趋势,轻氧不断创...
- 北京城建50亿元公司债券已提交注册
- 当前关注:上海申花等俱乐部因欠...
- 中梁控股:中国建设银行(亚洲)...
- 罗大佑有一首歌《东方之珠》唱的...
- 环球看热讯:金科服务:博裕投资...
- 阳光城:近期新增正在执行案件金...