Research2026-05-08

Long-Horizon Q-Learning: Accurate Value Learning via n-Step Inequalities

arXiv:2605.05812v1 Announce Type: new Abstract: Off-policy, value-based reinforcement learning methods such as Q-learning are appealing because they can learn from arbitrary experience, including data collected by older policies or other agents. In practice, however, bootstrapping makes...

Read Original Article on Arxiv CS.AI

arxivpapers