体育馆文档

内容

下面描绘的经典“代理-环境循环”是强化学习的简化表示,Gymnasium实现了这一循环。

此循环是使用以下体育馆代码实现的

import gymnasium as gym env = gym.make("LunarLander-v2", render_mode="human") observation, info = env.reset() for _ in range(1000): action = env.action_space.sample() # agent policy that uses the observation and info observation, reward, terminated, truncated, info = env.step(action) if terminated or truncated: observation, info = env.reset() env.close()

首先,使用make创建一个环境,还可以使用额外的关键字"render_mode"来指定环境应该如何可视化。有关不同渲染模式的默认含义,请参阅render。在此示例中,我们使用"LunarLander"环境,代理控制一艘需要安全着陆的太空飞船。

初始化环境后,我们使用 reset 方法重置环境,以获取环境的第一个观测。要使用特定的随机种子或选项(请参阅环境文档以获取可能的值)初始化环境,请在 reset 方法中使用 seedoptions 参数。

总结
文章介绍了强化学习中的代理-环境循环,以及Gymnasium如何实现这一循环。通过创建环境、重置环境、代理执行动作、获取新的观察和奖励等步骤来模拟代理与环境的交互。当环境终止或被截断时,需要重新初始化环境。强调了环境的终止状态和截断信号,以及如何处理这些情况。