arxiv_cs_ai 2026年2月10日

Calm: 適切性を条件にし、小さな注意ベクトルのsparseな対応が大きな音声語料モデルを強化する

CALM: Class-Conditional Sparse Attention Vectors for Large Audio-Language Models

Translated: 2026/3/7 11:33:15

machine-learningcnnclassification methodsaudio visual models

Japanese Translation

大規模な音声・言語モデル (LALMs) は、何もなく新たなタスクで強力なゼロショット能力があり、たとえば音声問答や抽象的な reasoning のように多くの後処理タスクにおいて。しかし、特定の discriminate ポイントでは（例として）音声分類に向かいがちである彼らにはまだ引き続き後進があります。最近の人気のある研究は、大型の LALM で見られる小さな注意ヘッドを組み合わせることで、単純な投票法を使用して分類ターゲットでの強力な区分化する特徴抽出器であるべきです。ただし、これらの方法では、選択されたすべてのヘッダーが同等に配付されていました、これがそれぞれのヘッダー間で等しく構成付けられているという仮定の下で。この作業では、私たちはクラス条件付きの sparse attention ベクトル for 大規模な音声・語料モデル (Calm) を提案しています。これは少量のタスクの分類方法です。学習するクラス固有の重要性スコアをヘッダーに割り当てます.この形態は、個々のヘッドライトが特定のセマンチックカテゴリーで専門的なパフォーマンスを達成し、その役割により定められた確率からそれぞれの可視性を推測した分類予測に参加することができます。マルチモルトビジュアル音声または視覚的タスクでもいくつかのフレームワークでのいくつかの多数の後処理の観察や benchmarks とタスカクで実験してみることが証明しました、私たちの方法は統合的な投票ベースでの優れたアプローチを最大級の状態に 14.52% 以上およびそれぞれ 1.53% 以上と 8.35% の絶対的進歩であるように音声分類、マルチモルトビジュアル分類、スリープ検出に達することが確認されています。

Original Content

arXiv:2602.07077v1 Announce Type: cross Abstract: Large audio-language models (LALMs) exhibit strong zero-shot capabilities in multiple downstream tasks, such as audio question answering (AQA) and abstract reasoning; however, these models still lag behind specialized models for certain discriminative tasks (e.g., audio classification). Recent studies show that sparse subsets of attention heads within an LALM can serve as strong discriminative feature extractors for downstream tasks such as classification via simple voting schemes. However, these methods assign uniform weights to all selected heads, implicitly assuming that each head contributes equally across all semantic categories. In this work, we propose Class-Conditional Sparse Attention Vectors for Large Audio-Language Models, a few-shot classification method that learns class-dependent importance weights over attention heads. This formulation allows individual heads to specialize in distinct semantic categories and to contribute to ensemble predictions proportionally to their estimated reliability. Experiments on multiple few-shot audio and audiovisual classification benchmarks and tasks demonstrate that our method consistently outperforms state-of-the-art uniform voting-based approaches by up to 14.52%, 1.53%, 8.35% absolute gains for audio classification, audio-visual classification, and spoofing detection respectively.