Policy2026-04-30

TLPO: Token-Level Policy Optimization for Mitigating Language Confusion in Large Language Models

arXiv:2604.26553v1 Announce Type: cross Abstract: Large language models (LLMs) demonstrate strong multilingual capabilities, yet often fail to consistently generate responses in the intended language, exhibiting a phenomenon known as language confusion. Prior mitigation approaches based on...

Read Original Article on Arxiv CS.AI

arxivpapers