该软件还与d3rlpy兼容,后者实现了一系列在线和离线 RL 方法。SCOPE-RL 通过OpenAI Gym和类似Gymnasium 的界面,可以在任何环境中进行简单、透明且可靠的离线 RL 研究实验。它还有助于在各种定制数据集和真实数据集的实践中实现离线强化学习。
特别是,SCOPE-RL 能够并促进与以下研究主题相关的评估和算法比较:
离线强化学习:离线强化学习旨在仅从行为策略收集的离线记录数据中学习新策略。SCOPE-RL 使用通过各种行为策略和环境收集的定制数据集来实现灵活的实验。
离线策略评估:OPE 旨在仅使用离线记录的数据来评估反事实策略的性能。SCOPE-RL 支持许多 OPE 估计器,并简化了评估和比较 OPE 估计器的实验程序。此外,我们还实现了先进的 OPE 方法,例如基于状态动作密度估计和累积分布估计的估计器。
离线策略选择:OPS 旨在使用离线记录的数据从多个候选策略池中识别性能最佳的策略。SCOPE-RL 支持一些基本的 OPS 方法,并提供多种指标来评估 OPS 的准确性。