Policy2026-05-12

expo: Exploration-prioritized policy optimization via adaptive kl regulation and gaussian curriculum sampling

arXiv:2605.09923v1 Announce Type: new Abstract: Reinforcement Learning with Verifiable Rewards (RLVR) has become the standard paradigm for LLM mathematical reasoning, where Group Relative Policy Optimization (GRPO) serves as the mainstream algorithm. We point out two understudied inefficiencies...

Read Original Article on Arxiv CS.AI

arxivpapers