图文列表 - 墨之科技

IMPALA: Scalable Distributed Deep-RL with Importance Weighted Actor-Learner Architectures
Stabilizing transformers for reinforcement learning
Soft Actor-Critic
UR-ROS
cross_entropy 中的 reduce_mean
优先经验重播 Prioritized Experience Replay
Mujoco UR5 机械臂仿真
高斯分布的信息熵、交叉熵和相对熵（KL散度）公式推导
值分布增强学习算法分布式贝尔曼算子 a distributional perspective on reinforcement learning
深度增强学习框架：rllab & garage
信任域策略优化算法 trust region policy optimization
普通策略梯度算法 vanilla policy gradient
无奖励工程的端到端机器人强化学习 End-to-End Robotic Reinforcement Learning without Reward Engineering
对抗生成网络 Generative Adversarial Networks
生成对抗模仿学习 Generative Adversarial Imitation Learning
近端策略优化算法 Proximal Policy Optimization Algorithms
Pendulum 2DoF with NAF Algorithm
Guided Policy Search 引导策略搜索

墨之科技，版权所有 © Copyright 2017-2027

湘ICP备14012786号邮箱：inksci@qq.com