Research2026-04-24

Continuous-Utility Direct Preference Optimization

arXiv:2602.00931v2 Announce Type: replace-cross Abstract: Large language model reasoning is often treated as a monolithic capability, relying on binary preference supervision that fails to capture partial progress or fine-grained reasoning quality. We introduce Continuous Utility Direct Preference...

Read Original Article on Arxiv CS.AI

arxivpapers