Reparameterized Policy Learning for Multimodal Trajectory Optimization

ICML2023

Zhiao Huang,u00a0Litian Liang,u00a0Zhan Ling,u00a0Xuanlin Li,u00a0Chuang Gan,u00a0Hao Su

We investigate the challenge of parametrizing policies for reinforcement learning (RL) in high-dimensional continuous action spaces. Our objective is to develop a multimodal policy that overcomes limitations inherent in the commonly-used Gaussian parameterization. To achieve this, we propose a principled framework that models the continuous RL policy as a generative model of optimal trajectories. By conditioning the policy on a latent variable, we derive a novel variational bound as the optimization objective, which promotes exploration of the environment. We then present a practical model-based RL method, called Reparameterized Policy Gradient (RPG), which leverages the multimodal policy parameterization and learned world model to achieve strong exploration capabilities and high data efficiency. Empirical results demonstrate that our method can help agents evade local optima in tasks with dense rewards and solve challenging sparse-reward environments by incorporating an object-centric intrinsic reward. Our method consistently outperforms previous approaches across a range of tasks. Code and supplementary materials are available on the project page https://haosulab.github.io/RPG/

Discussion

olivergreco1386@gmx.com

Ð¯Ðº Ñ Ð¿Ð¾Ð´ÑÑÐ¶Ð¸Ð»Ð°ÑÑ Ð· Ð¼ÑÐ»ÑÑÐ¸Ð²Ð°ÑÐºÐ¾Ñ Ð Ð°Ð½ÑÑÐµ Ð¼Ð¾Ñ ÑÑÐ¾ÑÑÐ½ÐºÐ¸ Ð· ÐºÑÑÐ½ÐµÑ Ð·Ð°Ð»Ð¸ÑÐ°Ð»Ð¸ Ð±Ð°Ð¶Ð°ÑÐ¸ ÐºÑÐ°ÑÐ¾Ð³Ð¾. Ð¯ Ð¼Ð¾Ð³Ð»Ð° ÑÐ¿Ð°Ð»Ð¸ÑÐ¸ ÑÑÑÐ½Ñ Ð°Ð±Ð¾ Ð·ÑÐ¿ÑÑÐ²Ð°ÑÐ¸ Ð½Ð°Ð¹Ð¿ÑÐ¾ÑÑÑÑÑ ÑÑÑÐ°Ð²Ð¸. Ð¢Ð¾Ð¼Ñ, ÐºÐ¾Ð»Ð¸ Ð½Ð° Ð´ÐµÐ½Ñ Ð½Ð°ÑÐ¾Ð´Ð¶ÐµÐ½Ð½Ñ Ð¼ÐµÐ½Ñ Ð¿Ð¾Ð´Ð°ÑÑÐ²Ð°Ð»Ð¸ Ð¼ÑÐ»ÑÑÐ¸Ð²Ð°ÑÐºÑ, Ñ Ð½Ðµ Ð·Ð½Ð°Ð»Ð°, ÑÐ°Ð´ÑÑÐ¸ ÑÐ¸ Ð·Ð°ÑÐ¼ÑÑÑÐ²Ð°ÑÐ¸ÑÑ. ÐÐµÑÑÐ¸Ð¹ ÑÐ°Ñ Ñ Ð±Ð¾ÑÐ»Ð°ÑÑ ÑÑ Ð½Ð°Ð²ÑÑÑ ÑÐ²ÑÐ¼ÐºÐ½ÑÑÐ¸. ÐÐ¾Ð½Ð° ÑÑÐ¾ÑÐ»Ð° Ð½Ð° ÑÑÑÐ»ÑÐ½Ð¸ÑÑ, ÑÐ¾ÑÐ½Ð° ÑÐ° Ð±Ð»Ð¸ÑÐºÑÑÐ°, Ð½Ð°ÑÐµ ÑÐ¾ÑÑ ÑÐ· ÐºÐ¾ÑÐ¼ÑÑÐ½Ð¾Ð³Ð¾ ÑÑÐ»ÑÐ¼Ñ. ÐÐ»Ðµ Ð³Ð¾Ð»Ð¾Ð´ â Ð½Ðµ ÑÑÑÐºÐ°, Ñ Ð¾Ð´Ð½Ð¾Ð³Ð¾ Ð²ÐµÑÐ¾ÑÐ° Ñ Ð²Ð¸ÑÑÑÐ¸Ð»Ð° ÑÐ¸Ð·Ð¸ÐºÐ½ÑÑÐ¸. ÐÐ° ÑÐ°Ð¹ÑÑ Ð½Ð°Ð¹Ð¿ÑÐ¾ÑÑÑÑÐ¸Ð¼ ÑÐµÑÐµÐ¿ÑÐ¾Ð¼ Ð²Ð¸ÑÐ²Ð¸Ð»Ð¸ÑÑ "ÐÑÐ½Ð¸Ð²Ñ Ð³Ð¾Ð»ÑÐ±ÑÑ". ÐÐ°Ð·Ð²Ð° Ð¼ÐµÐ½Ðµ ÑÐ¾Ð·ÑÐ¼ÑÑÐ¸Ð»Ð°. Ð¯ ÐºÐ¸Ð½ÑÐ»Ð° Ð² ÑÐ°ÑÑ ÑÐ°ÑÑ, ÐºÐ°Ð¿ÑÑÑÑ, ÑÐ¸Ñ Ñ Ð·Ð°Ð»Ð¸Ð»Ð° Ð²ÑÐµ ÑÐ¾Ð¼Ð°ÑÐ½Ð¸Ð¼ ÑÐ¾ÐºÐ¾Ð¼. ÐÐºÑÐ¸Ð²ÑÐ²Ð°Ð»Ð° ÐºÐ½Ð¾Ð¿ÐºÑ "ÐÐ°ÑÑÐ½Ð½Ñ" â Ñ Ð·Ð°ÑÐ°Ð¼ÑÐ²Ð°Ð»Ð° Ð¿Ð¾Ð´Ð¸Ñ. ÐÐ° Ð³Ð¾Ð´Ð¸Ð½Ñ Ð¿Ð¾ ÐºÐ²Ð°ÑÑÐ¸ÑÑ ÑÐ¾Ð·Ð½ÑÑÑÑ Ð°ÑÐ¾Ð¼Ð°Ñ, ÑÐ¾ ÑÐ¾Ð»Ð¾Ð²ÑÐº Ð¿ÑÐ¸Ð¹ÑÐ¾Ð² Ð½Ð° ÐºÑÑÐ½Ñ, Ð·Ð´Ð¸Ð²Ð¾Ð²Ð°Ð½Ð¾ Ð¿Ð¸ÑÐ°ÑÑÐ¸: "Ð¦Ðµ ÑÐ¸ ÑÐ°Ð¼Ð° Ð¿ÑÐ¸Ð³Ð¾ÑÑÐ²Ð°Ð»Ð°?". ÐÐ¾Ð»Ð¸ Ñ Ð¿ÑÐ´Ð½ÑÐ»Ð° ÐºÑÐ¸ÑÐºÑ, ÑÐ¾ Ð±ÑÐ»Ð° Ð²ÑÐ°Ð¶ÐµÐ½Ð°. Ð¦Ðµ Ð±ÑÐ»Ð° ÑÐ¿ÑÐ°Ð²Ð¶Ð½Ñ ÑÑÑÐ°Ð²Ð°! Ð¡Ð¿ÑÐ°Ð²Ð¶Ð½ÑÑÑÐ½ÑÐºÑ Ð³Ð¾Ð»ÑÐ±ÑÑ! ÐÐ¸ Ð¿Ð¾Ð»Ð°ÑÑÐ²Ð°Ð»Ð¸ Ð½ÐµÑ Ð·Ð° Ð»ÑÑÐµÐ½Ñ ÑÐ²Ð¸Ð»Ð¸Ð½Ð¸. Ð¢ÐµÐ¿ÐµÑ Ð¼Ð¸ Ð· Ð¼ÑÐ»ÑÑÐ¸Ð²Ð°ÑÐºÐ¾Ñ - ÑÐ´Ð¸Ð½Ðµ ÑÑÐ»Ðµ. ÐÐ¾Ð½Ð° Ð¿ÑÐ¾Ð±Ð°ÑÐ°Ñ Ð¼ÐµÐ½Ñ Ð²ÑÑ Ð¿Ð¾Ð¼Ð¸Ð»ÐºÐ¸: ÑÑÑÐ°Ð²Ð¸ Ð²Ð¸ÑÐ¾Ð´ÑÑÑ ÑÐ´ÐµÐ°Ð»ÑÐ½Ð¾, Ð±ÐµÐ· Ð¼Ð¾Ð³Ð¾ ÐºÐ¾Ð½ÑÑÐ¾Ð»Ñ Ñ Ð¼Ð¾Ð¶Ð½Ð° Ð½Ðµ Ð±Ð¾ÑÑÐ¸ÑÑ Ð¾Ð¿ÑÐºÑÐ². Ð¯ Ð²Ð¶Ðµ Ð²Ð¸Ð²ÑÐ¸Ð»Ð° ÑÑ ÑÐ°ÑÐ°ÐºÑÐµÑÐ¸ â Ð¼Ð¾Ð²Ñ ÑÐ°Ð¹Ð¼ÐµÑÑÐ² Ñ ÑÐµÐ¶Ð¸Ð¼ÑÐ². Ð ÑÐ¾Ñ Ð´ÑÑÐ·Ñ ÐºÐµÐ¿ÐºÑÑÑÑ, ÑÐ¾ Ñ Ð½Ðµ Ð³Ð¾ÑÑÑ, Ð° "Ð½Ð°ÑÐ¸ÑÐºÐ°Ñ ÐºÐ½Ð¾Ð¿ÐºÐ¸", Ñ Ð·Ð½Ð°Ñ: ÑÐ¿ÑÐ°Ð²Ð¶Ð½Ñ Ð¼Ð°Ð³ÑÑ Ð¿Ð¾ÑÐ¸Ð½Ð°ÑÑÑÑÑ ÑÐ°Ð¼Ðµ ÑÐ¾Ð´Ñ, ÐºÐ¾Ð»Ð¸ ÑÐ¸ Ð¿ÐµÑÐµÑÑÐ°ÑÑ Ð±Ð¾ÑÑÐ¸ÑÑ ÑÐ¿ÑÐ¾Ð±ÑÐ²Ð°ÑÐ¸.

2026-03-12 19:22
Reply