Back to list
arxiv_cs_ai 2026年4月20日

LLM 推論による多視点注意多重インスタンス学習の認知歪曲検出の向上

Multi-View Attention Multiple-Instance Learning Enhanced by LLM Reasoning for Cognitive Distortion Detection

Translated: 2026/4/20 11:17:38
cognitive-distortion-detectionlarge-language-modelsmultiple-instance-learningmultimodal-attentionmental-health-nlp

Japanese Translation

arXiv:2509.17292v3 Announce Type: replace-cross 要約:認知歪曲は精神障害と密接に関連していますが、文脈の曖昧さ、共起、および語義的重複により、その自動検出は依然として困難です。本稿では、大規模言語モデル(LLM)と多重インスタンス学習(MIL)アーキテクチャを組み合わせた新しいフレームワークを提案します。これは解釈可能性と表現レベルの推論を向上させるためです。各発言は感情、論理、行動(ELB)の構成要素に分解され、LLM によって処理されて複数の歪曲インスタンス(それぞれに予断されたタイプ、表現、モデル割り当ての顕著性スコア)が推論されます。これらのインスタンスは、最終分類のために多視点ゲートド注意機構を経て統合されます。韓国語(KoACD)および英語(Therapist QA)データセットにおける実験では、ELB と LLM 推論顕著性スコアの統合が分類性能を改善し、特に解釈的な曖昧さが高い歪曲において顕著な成果を示しました。当社の結果は、精神的に裏付けられたかつ汎用性のあるアプローチとして、精神保健 NLP における微細な推論を提案しています。データセットと実装詳細は公開されています。

Original Content

arXiv:2509.17292v3 Announce Type: replace-cross Abstract: Cognitive distortions have been closely linked to mental health disorders, yet their automatic detection remains challenging due to contextual ambiguity, co-occurrence, and semantic overlap. We propose a novel framework that combines Large Language Models (LLMs) with a Multiple-Instance Learning (MIL) architecture to enhance interpretability and expression-level reasoning. Each utterance is decomposed into Emotion, Logic, and Behavior (ELB) components, which are processed by LLMs to infer multiple distortion instances, each with a predicted type, expression, and model-assigned salience score. These instances are integrated via a Multi-View Gated Attention mechanism for final classification. Experiments on Korean (KoACD) and English (Therapist QA) datasets demonstrate that incorporating ELB and LLM-inferred salience scores improves classification performance, especially for distortions with high interpretive ambiguity. Our results suggest a psychologically grounded and generalizable approach for fine-grained reasoning in mental health NLP. The dataset and implementation details are publicly accessible.