(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202210748793.X
(22)申请日 2022.06.29
(71)申请人 江苏大学
地址 212013 江苏省镇江市京口区学府路
301号
(72)发明人 蔡英凤 朱子轩 陈龙 方啸
陆文杰 王海 董钊志 孙晓强
(74)专利代理 机构 南京智造力知识产权代理有
限公司 32382
专利代理师 王军丽
(51)Int.Cl.
G06F 30/15(2020.01)
G06F 30/20(2020.01)
G06F 119/14(2020.01)
(54)发明名称
一种自动驾驶商用车紧急转向控制策略网
络模型、 训练方法、 建模方法及仿真方法
(57)摘要
本发明公开了一种自动驾驶商用车紧急转
向控制策略网络模型、 训练方法、 建模方法及仿
真方法, 使用多任务划分的训练方法, 同时结合
可变高斯安全场模型以提高决策的安全性。 使 得
在前方有障碍物, 自身车辆又无法完成制动目标
的情况下完成自动紧急转向, 避免追尾或碰撞事
故。 本发明针对商用车的紧急制动转向问题, 利
用Matlab建模, 并与Carla进行联合仿真的方法,
解决了在无模型的强化学习中无法体现商用车
重心高, 易侧翻, 质量大难制动等问题, 保证了仿
真实验的可靠性。 本发明使用了多任务划分的强
化学习方法, 大大提高了训练效率。 同时引入可
变高斯安全场策略, 保证了在决策和控制时, 车
辆控制具有较高的稳定性和避障安全性。
权利要求书5页 说明书11页 附图2页
CN 114925461 A
2022.08.19
CN 114925461 A
1.一种自动驾驶商用车紧急转向控制策略网络模型, 其特征在于, 策略网络πθ(z,p)包
括卷积特征提取网络和全连接网络两部 分, 其中z为策略网络的输入状态量, 包括时序鸟瞰
图矩阵和自车的当前位置; p为策略网络的输出, 即商用车的导航点p=(xi,yi); θ为网络的
权重和偏置参数; 所述策略网络具体包括一层卷积层和三层 全连接层, 所述的卷积层Conv1
由大小为2*2的卷积核组成, 卷积核的个数为9*32, 步长stri de=1, 激活函数为ReLU; 所述
的第一层 全连接为全 连接层FC1和全 连接层FC1 ‑σ, 全连接层FC1处理展平后的卷积层Conv1
输出结果, 大小为2*2*9*32, 激活函数为ReLU; 全连接层FC1 ‑σ 输出为自车过去几个时刻的
历史轨迹信息, 大小为1024*1, 激活函数为ReLU; 所述的第二全 连接为全 连接层FC2, 处理全
连接层FC1和全 连接层FC1 ‑σ 的拼接状态量, 大小为4096*1, 激活函数为ReLU; 所述的第三层
全连接为全连接层FC3, 处理全连接层FC2输出的状态量, 大小为1024*1, 激活函数为T anh,
最终全连接层FC 3输出状态特 征z。
2.根据权利要求1所述的自动驾驶商用车紧急转向控制策略网络模型, 其特征在于, 所
述策略网络的状态量为三维时序鸟瞰图; 所述的三维时序鸟瞰图矩阵的尺寸为(40, 400,
80), 其中第一维40表示参考线左右各10m的横向范 围, 横向位移 间隔为0.5m; 第二维400表
示以自车为原点 向前纵向200m的范围, 纵向位移间隔为0.5m, 第三维80表示未来8s内的时
间范围, 时间间隔为1s, 当时序鸟瞰图矩阵中的点[α, β,γ ]为‑1, 表示该点在时空间中存在
障碍物或为不可行驶区域, 当时序鸟瞰图矩阵中的点[α, β,γ ]为0, 表示该点在时空间中为
可行驶区域, 当时序鸟瞰图矩阵中的点[α, β,γ] ]为1, 表示该点 为参考线的一个点。
3.根据权利要求1所述的自动驾驶商用车紧急转向控制策略网络模型的训练方法, 其
特征在于, 包括横向控制训练; 具体如下:
以所导航点的坐标(xi,yi)、 航向偏差
和控制车辆的车速v、 加速度
为状态量:
slane_keep为智能体进行 车道保持训练时所获得的状态量;
动作为方向盘转角asteer∈[‑1,1], 此部分的奖励函数的设计以车辆当前坐标的横向误
差x0和航向角偏差
作为评价指标:
λ1、 λ2为奖励函数两 部分所占权 重;
如果自动驾驶车辆在进行训练的过程中当前位置的横向偏差大于设定的最大横向偏
差阈值x0m则结束当前回合的迭代训练进行 下一回合的训练。
4.根据权利要求3所述的自动驾驶商用车紧急转向控制策略网络模型的训练方法, 其
特征在于, 还 包括纵向控制训练, 具体如下:
纵向轨迹跟踪控制任务以当前车辆的车速v、 加速度
前方车辆的车速vl、 加速度
与
前车的距离d和当前 车辆的期望车速vdes为状态量:
sacc为智能体进行纵向跟车控制训练时所获得的状态量;
智能体的输出动作aacc∈[‑1,1], 包括油门动作athrottle和刹车动作abrake:
权 利 要 求 书 1/5 页
2
CN 114925461 A
2针对纵向控制任务, 奖励函数设计为:
其中, d为与前车的实时距 离, ddes为与前车的期望距 离, dsafe为与前车的安全距 离, 当智
能车与前方车辆的距离小于安全距离, 奖励为 ‑100, 同时停止当前的交互开始下一回合交
互, 在进行纵向训练时, 每回合都随机给定前方车辆的车速vl和当前车辆的期望车速vdes,
以便训练的模型 可以泛化到更多复杂的情况。
5.根据权利要求3或4所述的自动驾驶商用车紧急转向控制策略网络模型的训练方法,
其特征在于, 还 包括决策 行为训练; 所述决策 行为包括紧急制动和紧急转向,
当adecision为0时, 决策模块选择紧急制动; 当adecision为1时, 决策模块选择向右进行紧急
转向。
6.根据权利要求5所述的自动驾驶商用车紧急转向控制策略网络模型的训练方法, 其
特征在于, 所述决策行为为紧急制动避障时, 采用可变高斯安全场对决策 的奖励函数进行
设计, 在障碍物处于扩展域之外时, 车辆采取制动措施可以制动, 在障碍物位于扩展域时,
车辆采取转向转向变道措施, 当障碍物处于核心 域和限制域时, 将大概率碰撞, 奖励函数设
计如下:
其中,
dlon,min、 dlon,mid、
dlon,max分别为可别高斯安全场核心域、 限制域、 扩展域的纵向安全距离, lv是车辆模型的长
度, wv是车辆模型的宽度, l ′v是车辆运动时车辆模型的长度, w ′v是车辆运动时车辆模型的
宽度;
其中:
式中,
是车辆运动的速度矢量, kv是调节因子, 且有0<kv<1或‑1<kv<0, 其符号与运动的
前后方向相对应, ξ 是 车辆的横摆转角。
7.根据权利要求6所述的自动驾驶商用车紧急转向控制策略网络模型的训练方法, 其
特征在于, 所述 可变高斯安全场是将静态的车辆抽象为长方形, 其长为lv, 宽为wv, 风险中心
O(x0,y0)为其几何中心, 使用二维高斯 函数描述 其静态安全场:权 利 要 求 书 2/5 页
3
CN 114925461 A
3
专利 一种自动驾驶商用车紧急转向控制策略网络模型、训练方法、建模方法及仿真方法
文档预览
中文文档
19 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
温馨提示:本文档共19页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 思考人生 于 2024-02-07 20:36:18上传分享