Research2026-05-12

Gate-and-Merge: Zero-shot Compositional Personalization of Vision Language Models

arXiv:2605.08702v1 Announce Type: cross Abstract: This paper tackles compositional personalization of vision-language models (VLMs). In this problem, multiple user-defined concepts must be recognized or described jointly at test time. We introduce Gate-and-Merge, a zero-shot framework that enables...

Read Original Article on Arxiv CS.AI

arxivpapersvision