专利 一种自动驾驶商用车紧急转向控制策略网络模型、训练方法、建模方法及仿真方法

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202210748793.X (22)申请日 2022.06.29 (71)申请人江苏大学地址 212013 江苏省镇江市京口区学府路 301号 (72)发明人蔡英凤　朱子轩　陈龙　方啸　陆文杰　王海　董钊志　孙晓强　 (74)专利代理机构南京智造力知识产权代理有限公司 32382 专利代理师王军丽 (51)Int.Cl. G06F 30/15(2020.01) G06F 30/20(2020.01) G06F 119/14(2020.01) (54)发明名称一种自动驾驶商用车紧急转向控制策略网络模型、训练方法、建模方法及仿真方法 (57)摘要本发明公开了一种自动驾驶商用车紧急转向控制策略网络模型、训练方法、建模方法及仿真方法，使用多任务划分的训练方法，同时结合可变高斯安全场模型以提高决策的安全性。使得在前方有障碍物，自身车辆又无法完成制动目标的情况下完成自动紧急转向，避免追尾或碰撞事故。本发明针对商用车的紧急制动转向问题，利用Matlab建模，并与Carla进行联合仿真的方法，解决了在无模型的强化学习中无法体现商用车重心高，易侧翻，质量大难制动等问题，保证了仿真实验的可靠性。本发明使用了多任务划分的强化学习方法，大大提高了训练效率。同时引入可变高斯安全场策略，保证了在决策和控制时，车辆控制具有较高的稳定性和避障安全性。权利要求书5页说明书11页附图2页 CN 114925461 A 2022.08.19 CN 114925461 A 1.一种自动驾驶商用车紧急转向控制策略网络模型，其特征在于，策略网络πθ(z,p)包括卷积特征提取网络和全连接网络两部分，其中z为策略网络的输入状态量，包括时序鸟瞰图矩阵和自车的当前位置； p为策略网络的输出，即商用车的导航点p＝(xi,yi)； θ为网络的权重和偏置参数；所述策略网络具体包括一层卷积层和三层全连接层，所述的卷积层Conv1 由大小为2*2的卷积核组成，卷积核的个数为9*32，步长stri de＝1，激活函数为ReLU；所述的第一层全连接为全连接层FC1和全连接层FC1 ‑σ，全连接层FC1处理展平后的卷积层Conv1 输出结果，大小为2*2*9*32，激活函数为ReLU；全连接层FC1 ‑σ 输出为自车过去几个时刻的历史轨迹信息，大小为1024*1，激活函数为ReLU；所述的第二全连接为全连接层FC2，处理全连接层FC1和全连接层FC1 ‑σ 的拼接状态量，大小为4096*1，激活函数为ReLU；所述的第三层全连接为全连接层FC3，处理全连接层FC2输出的状态量，大小为1024*1，激活函数为T anh，最终全连接层FC 3输出状态特征z。 2.根据权利要求1所述的自动驾驶商用车紧急转向控制策略网络模型，其特征在于，所述策略网络的状态量为三维时序鸟瞰图；所述的三维时序鸟瞰图矩阵的尺寸为(40， 400， 80)，其中第一维40表示参考线左右各10m的横向范围，横向位移间隔为0.5m；第二维400表示以自车为原点向前纵向200m的范围，纵向位移间隔为0.5m，第三维80表示未来8s内的时间范围，时间间隔为1s，当时序鸟瞰图矩阵中的点[α, β,γ ]为‑1，表示该点在时空间中存在障碍物或为不可行驶区域，当时序鸟瞰图矩阵中的点[α, β,γ ]为0，表示该点在时空间中为可行驶区域，当时序鸟瞰图矩阵中的点[α, β,γ] ]为1，表示该点为参考线的一个点。 3.根据权利要求1所述的自动驾驶商用车紧急转向控制策略网络模型的训练方法，其特征在于，包括横向控制训练；具体如下：以所导航点的坐标(xi,yi)、航向偏差和控制车辆的车速v、加速度为状态量： slane_keep为智能体进行车道保持训练时所获得的状态量；动作为方向盘转角asteer∈[‑1,1]，此部分的奖励函数的设计以车辆当前坐标的横向误差x0和航向角偏差作为评价指标： λ1、 λ2为奖励函数两部分所占权重；如果自动驾驶车辆在进行训练的过程中当前位置的横向偏差大于设定的最大横向偏差阈值x0m则结束当前回合的迭代训练进行下一回合的训练。 4.根据权利要求3所述的自动驾驶商用车紧急转向控制策略网络模型的训练方法，其特征在于，还包括纵向控制训练，具体如下：纵向轨迹跟踪控制任务以当前车辆的车速v、加速度前方车辆的车速vl、加速度与前车的距离d和当前车辆的期望车速vdes为状态量： sacc为智能体进行纵向跟车控制训练时所获得的状态量；智能体的输出动作aacc∈[‑1,1]，包括油门动作athrottle和刹车动作abrake：权　利　要　求　书 1/5 页 2 CN 114925461 A 2针对纵向控制任务，奖励函数设计为：其中， d为与前车的实时距离， ddes为与前车的期望距离， dsafe为与前车的安全距离，当智能车与前方车辆的距离小于安全距离，奖励为 ‑100，同时停止当前的交互开始下一回合交互，在进行纵向训练时，每回合都随机给定前方车辆的车速vl和当前车辆的期望车速vdes，以便训练的模型可以泛化到更多复杂的情况。 5.根据权利要求3或4所述的自动驾驶商用车紧急转向控制策略网络模型的训练方法，其特征在于，还包括决策行为训练；所述决策行为包括紧急制动和紧急转向，当adecision为0时，决策模块选择紧急制动；当adecision为1时，决策模块选择向右进行紧急转向。 6.根据权利要求5所述的自动驾驶商用车紧急转向控制策略网络模型的训练方法，其特征在于，所述决策行为为紧急制动避障时，采用可变高斯安全场对决策的奖励函数进行设计，在障碍物处于扩展域之外时，车辆采取制动措施可以制动，在障碍物位于扩展域时，车辆采取转向转向变道措施，当障碍物处于核心域和限制域时，将大概率碰撞，奖励函数设计如下：其中， dlon,min、 dlon,mid、 dlon,max分别为可别高斯安全场核心域、限制域、扩展域的纵向安全距离， lv是车辆模型的长度， wv是车辆模型的宽度， l ′v是车辆运动时车辆模型的长度， w ′v是车辆运动时车辆模型的宽度；其中：式中，是车辆运动的速度矢量， kv是调节因子，且有0<kv<1或‑1<kv<0，其符号与运动的前后方向相对应， ξ 是车辆的横摆转角。 7.根据权利要求6所述的自动驾驶商用车紧急转向控制策略网络模型的训练方法，其特征在于，所述可变高斯安全场是将静态的车辆抽象为长方形，其长为lv，宽为wv，风险中心 O(x0,y0)为其几何中心，使用二维高斯函数描述其静态安全场：权　利　要　求　书 2/5 页 3 CN 114925461 A 3

专利 一种自动驾驶商用车紧急转向控制策略网络模型、训练方法、建模方法及仿真方法

专利一种自动驾驶商用车紧急转向控制策略网络模型、训练方法、建模方法及仿真方法