Partnership2026-04-20

Joint-Centric Dual Contrastive Alignment with Structure-Preserving and Information-Balanced Regularization

arXiv:2604.16247v1 Announce Type: cross Abstract: We propose HILBERT (HIerarchical Long-sequence Balanced Embedding with Reciprocal contrastive Training), a cross-attentive multimodal framework for learning document-level audio-text representations from long, segmented sequences in low-resource...

Read Original Article on Arxiv CS.AI

arxivpapers