Og

这家伙很懒，什么都没留下

O

O Og 这家伙很懒，什么都没留下

发布于2024-11-13 14:38:57

同样一个使用rl_zoo3训练的模型，使用stablebaseline3的evaluate_policy和rl_zoo3的rl_zoo3.enjoy.enjoy测试出来的score为什么会差别很大哇 from stable_baselines3.common.evaluation import evaluate_policy model = sb3.PPO.load(model_path, env=env, print_system_info=True) mean_reward, std_reward = evaluate_policy(model, model.get_env(), n_eval_episodes=4)

赞

评论

浏览 244

论文研讨