用飞桨玩AirSim智能驾驶
转自AI Studio,原文链接:飞桨AI Studio - 人工智能学习与实训社区https://www.bilibili.com/video/BV1UY4y1e7s5?share_source=copy_web训练过程视频:PARL_AirSim_DQN.mp4前言PARL是由百度大脑出品的、高性能、易用的国产强化学习(RL)框架。微软AirSim环境是基于Unreal游戏引擎开发的,面向四轴
转自AI Studio,原文链接:飞桨AI Studio - 人工智能学习与实训社区
https://www.bilibili.com/video/BV1UY4y1e7s5?share_source=copy_web
训练过程视频:PARL_AirSim_DQN.mp4
前言
PARL 是由百度大脑出品的、高性能、易用的国产强化学习(RL)框架。
微软AirSim环境是基于Unreal游戏引擎开发的,面向四轴无人机和无人驾驶汽车的虚拟现实环境。
AirSim目前star数高达12.9k,是微软公司最火的人工智能项目之一。
百度PARL的RL程序目前还无法在AirSim环境中运行。
本文实现了AirSim环境中运行基于PARL的强化学习算法。
一、环境要求与配置
- win10操作系统
- Anaconda Navigator
- Python3.7+
- PaddlePaddle2.x
- PARL2.x
- 宽带网络+加速器
- 内存16G或更多
- 显卡NVIDIA RTX3060Ti以上
注册账号
- 注册微软统一账号:Win10系统菜单中找到windows 商店注册即可。
- 注册Unreal账号:打开游戏引擎官网https://www.unrealengine.com/zh-CN 注册账号,并打通github.com认证授权(二次开发Unreal代码需要用到)。
下载软件
-
下载Visual Studio Community 2019
- 使用C++的桌面开发
- 安装组件:Window 10 SDK(10.0.18362.0)
-
下载Epic Game Launcher并安装4.26以上版本的“虚幻引擎”
-
重启Epic Game Launcher并关联项目文件
-
下载AirSim源代码:git clone https://github.com/Microsoft/AirSim.git
本地编译AirSim源代码(Windows环境)
- 打开Developer Command Prompt for VS 2019,在项目根目录下输入命令:build.cmd
- 检查插件目录:$ProjectRoot\Unreal\Plugins\ 看插件是否生成。
验证安装
- 打开Developer Command Prompt for VS 2019,在$ProjectRoot\Unreal\Environments\Blocks目录下输入命令:update_from_git.bat
- 弹出窗口点击确定,关联当前引擎
- 进入目录双击Blocks.sln, VS2019自动启动。
- 编译选项设置为:Development_Editor + Win64
- 点击菜单“调试”-->“开始调试”,虚幻编辑器启动,看一遍教程
- 点击“运行”,点击确定,出现下图表示AirSim环境安装成功!
二、使用Python控制汽车
1. 配置Anaconda环境
略
2. pip安装AirSim依赖包
# 安装Unreal和python之间的通讯协议
pip install msgpack-rpc-python
# 安装airsim的python库
pip install airsim
3. 下载并安装Unreal 的 Landscape Mountains环境
请参考: 《下载与安装示例》章节,不再赘述。
4. 启动VS Code,打开文件夹PythonClient\car\,运行hello_car.py,效果如下:
三、使用飞桨PARL强化学习算法驾驶汽车
下载AirSim预编译的windows版本的训练地图:
AirSim_Paddle
│ setup_path.py
│
│ agent.py
│ model.py
│ replay_memory.py
│ train.py
│
└─airgym
│ __init__.py
│
└─envs
airsim_env.py
car_env.py
drone_env.py
__init__.py
环境代码清单:
- setup_path.py AirSim环境设置
- airgym目录
__init__.py
python包配置- envs目录
-
airsim_env.py 基础环境配置
-
car_env.py 汽车训练环境配置
-
`__init__.py` python包配置
-
DQN算法代码清单:
- train.py 主程序,训练DQN模型
- model.py 飞桨PARL三件套之一
- agent.py 飞桨PARL三件套之一
- replay_memory DQN系列算法的“记忆回放”
代码逻辑
- 初始化AirSim_Gym 游戏环境
- 初始化飞桨PARL库的DQN算法
- 预热“记忆回放”
- 循环开始触发动作,训练自动驾驶
...
while True:
step += 1
# 获取记忆回放中的4帧
context = rpm.recent_obs()
# 把当前动作返回帧加进去
context.append(obs)
# 数组增加一维
context = np.stack(context, axis=0)
# 选择一个动作,e-greedy算法
action = agent.sample(context)
# 触发动作
next_obs, reward, isOver, _ = env.step(action)
# 回写记忆回放
rpm.append(Experience(obs, action, reward, isOver))
# train model
if (len(rpm) > MEMORY_WARMUP_SIZE) and (step % LEARN_FREQ == 0):
# s,a,r,s',done
(batch_all_obs, batch_action, batch_reward, batch_done) = rpm.sample_batch(BATCH_SIZE)
# 抽帧
batch_obs = batch_all_obs[:, :CONTEXT_LEN, :, :]
batch_next_obs = batch_all_obs[:, 1:, :, :]
# 把抽出的帧放入learn方法中学习
train_loss = agent.learn(batch_obs, batch_action, batch_reward,
batch_next_obs, batch_done)
loss_lst.append(float(train_loss))
print("loss" + str(train_loss))
total_reward += reward
obs = next_obs
if isOver:
break
return total_reward, step, np.mean(loss_lst)
- 保存训练结果。
四、源代码和演示视频
训练视频:PARL_AirSim_DQN.mp4 完整源代码在work目录
五、项目总结
本项目在AirSim仿真环境中首次集成了飞桨PARL强化学习框架。
使用了飞桨PARL库自带的DQN系列算法,验证了AirSim环境中使用飞桨框架的可行性。
更多推荐
所有评论(0)