Research2026-05-11

Domain-level metacognitive monitoring in frontier LLMs: A 33-model atlas

arXiv:2605.06673v1 Announce Type: cross Abstract: Aggregate metacognitive quality scores mask within-model variation across MMLU benchmark domains. We administered 1,500 MMLU items (250 per domain, under an a priori six-domain grouping) to 33 frontier LLMs from eight model families and computed...

Read Original Article on Arxiv CS.AI

arxivpapers