arxiv_cs_cv 2026年2月10日

ReasonEdit: 人間による推論を用いた視覚・言語モデルの編集

ReasonEdit: Editing Vision-Language Models using Human Reasoning

Translated: 2026/3/15 16:07:54

reason-editvision-language-modelsmodel-editingreasoningvqa

Japanese Translation

arXiv:2602.02408v3 Announce Type: replace 要旨：モデル編集は、関連しない動作を変えずに、大規模事前学習モデルの誤りを修正することを目的としています。最近のいくつかの研究で視覚・言語モデル（VLMs）が編集されていますが、既存の編集者は、人間とモデルが画像を論理づける必要がある通常の大規模な推論重たいタックを扱っていません。したがって、我々は、ユーザーが編集中に自身の推論を説明できるようにする第 1 期の VLM 編集器である ReasonEdit を提案します。これは、推論に基づいたタスクを扱うための新しい、実用的なモデル編集セットアップを確立します。ReasonEdit は、人間の推論をコードブックとして連続的に保存し、推論時には、ネットワーク科学に触発された新しいトポロジ・バランス付きマルチモーダル埋め込み法を使用して、のみ関連する事実にアクセスします。4 つの VLM を含む複数の推論に基づいた視覚的質問応答データセットにおいて、ReasonEdit は最良の編集性能を達成し、最終的に編集中に人間による推論を使うことが編集の汎化に大きく寄与することを示しています。

Original Content

arXiv:2602.02408v3 Announce Type: replace Abstract: Model editing aims to correct errors in large, pretrained models without altering unrelated behaviors. While some recent works have edited vision-language models (VLMs), no existing editors tackle reasoning-heavy tasks, which typically require humans and models to reason about images. We therefore propose ReasonEdit, the first VLM editor to let users explain their reasoning during editing, introducing a new, practical model editing setup. ReasonEdit continuously stores human reasoning in a codebook, and retrieves only relevant facts during inference using a novel topology-balanced multimodal embedding method inspired by network science. Across four VLMs on multiple rationale-based visual question answering datasets, ReasonEdit achieves state-of-the-art editing performance, ultimately showing that using human reasoning during editing greatly improves edit generalization.