Back to list
Model-Agnostic Self-Decompression による大規模言語モデルでの知識保持:Tree Generation (TG)
Preserving Knowledge in Large Language Model with Model-Agnostic Self-Decompression
Translated: 2026/4/24 19:52:43
Japanese Translation
arXiv:2406.11354v3 Announce Type: replace-cross
要約:人間は新しい情報を学びながら旧い知識を保持することができますが、ドメイン固有データへの後訓練 (post-pretrained) または教師あり微調整 (SFT) を行うと、大規模言語モデル (LLMs) は頻繁に大規模な忘却 (catastrophic forgetting) を経験します。さらに、LLM ベースと視覚プロジェクター (例:LLaVA) から構成されるマルチモーダル大規模言語モデル (MLLM) の場合、単一モードの対照物と比較して言語ベンチマークにおけるパフォーマンスの顕著な低下が観察されました。これらの課題に対処するため、私たちは LLM 内の知識を訓練コーパスに分解する、ノベルなモデル非特異的自己分解圧縮手法 Tree Generation (TG) を導入しました。本論文では、指示チューニングステップのために SFT データを合成的に生成できる TG-SFT に焦点を当てます。MLLM の SFT 時にダンプされたコーパスを併用することで、忘却の問題を劇的に軽減しました。
Original Content
arXiv:2406.11354v3 Announce Type: replace-cross
Abstract: Humans can retain old knowledge while learning new information, but Large Language Models (LLMs) often suffer from catastrophic forgetting when post-pretrained or supervised fine-tuned (SFT) on domain-specific data. Moreover, for Multimodal Large Language Models (MLLMs) which are composed of the LLM base and visual projector (e.g. LLaVA), a significant decline in performance on language benchmarks was observed compared to their single-modality counterparts. To address these challenges, we introduce a novel model-agnostic self-decompression method, Tree Generation (TG), that decompresses knowledge within LLMs into the training corpus. This paper focuses on TG-SFT, which can synthetically generate SFT data for the instruction tuning steps. By incorporating the dumped corpus during SFT for MLLMs, we significantly reduce the forgetting problem.