Research2026-05-13

OASIS: A Multilingual and Multimodal Dataset for Culturally Grounded Spoken Visual QA

arXiv:2510.06371v3 Announce Type: replace-cross Abstract: Large-scale multimodal models achieve strong results on tasks like Visual Question Answering (VQA), but they are often limited when queries require cultural and visual information, everyday knowledge, particularly in low-resource and...

Read Original Article on Arxiv CS.AI

arxivpapersmultimodal