Research2026-04-17

Towards Fine-grained Temporal Perception: Post-Training Large Audio-Language Models with Audio-Side Time Prompt

arXiv:2604.13715v1 Announce Type: cross Abstract: Large Audio-Language Models (LALMs) enable general audio understanding and demonstrate remarkable performance across various audio tasks. However, these models still face challenges in temporal perception (e.g., inferring event onset and offset),...

Read Original Article on Arxiv CS.AI

arxivpapersprompting