Reparameterized Policy Learning for Multimodal Trajectory Optimization

Zhiao Huang,u00a0Litian Liang,u00a0Zhan Ling,u00a0Xuanlin Li,u00a0Chuang Gan,u00a0Hao Su

We investigate the challenge of parametrizing policies for reinforcement learning (RL) in high-dimensional continuous action spaces. Our objective is to develop a multimodal policy that overcomes limitations inherent in the commonly-used Gaussian parameterization. To achieve this, we propose a principled framework that models the continuous RL policy as a generative model of optimal trajectories. By conditioning the policy on a latent variable, we derive a novel variational bound as the optimization objective, which promotes exploration of the environment. We then present a practical model-based RL method, called Reparameterized Policy Gradient (RPG), which leverages the multimodal policy parameterization and learned world model to achieve strong exploration capabilities and high data efficiency. Empirical results demonstrate that our method can help agents evade local optima in tasks with dense rewards and solve challenging sparse-reward environments by incorporating an object-centric intrinsic reward. Our method consistently outperforms previous approaches across a range of tasks. Code and supplementary materials are available on the project page https://haosulab.github.io/RPG/

Discussion


  • olivergreco1386@gmx.com
    Як я подружилася з мультиваркою Раніше мої стосунки з кухнею залишали бажати кращого. Я могла спалити яєчню або зіпсувати найпростіші страви. Тому, коли на день народження мені подарували мультиварку, я не знала, радіти чи засмучуватись. Перший час я боялася її навіть увімкнути. Вона стояла на стільниці, чорна та блискуча, наче щось із космічного фільму. Але голод — не тітка, і одного вечора я вирішила ризикнути. На сайті найпростішим рецептом виявилися "Ліниві голубці". Назва мене розсмішила. Я кинула в чашу фарш, капусту, рис і залила все томатним соком. Активувала кнопку "Гасіння" — і затамувала подих. За годину по квартирі рознісся аромат, що чоловік прийшов на кухню, здивовано питаючи: "Це ти сама приготувала?". Коли я підняла кришку, то була вражена. Це була справжня страва! Справжнісінькі голубці! Ми поласували нею за лічені хвилини. Тепер ми з мультиваркою - єдине ціле. Вона пробачає мені всі помилки: страви виходять ідеально, без мого контролю і можна не боятись опіків. Я вже вивчила її характери — мову таймерів і режимів. І хоч друзі кепкують, що я не готую, а "натискаю кнопки", я знаю: справжня магія починається саме тоді, коли ти перестаєш боятися спробувати.
    2026-03-12 19:22

    Reply