Back to list
arxiv_cs_ai 2026年4月24日

M-CARE: AI モデルの行動障害に対する標準化された臨床事例報告書,20 事例アタスおよび実験的検証付き

M-CARE: Standardized Clinical Case Reporting for AI Model Behavioral Disorders, with a 20-Case Atlas and Experimental Validation

Translated: 2026/4/24 20:20:38
m-careai-safetymachine-learningbehavioral-monitoringclinical-framework

Japanese Translation

arXiv:2604.20871v1 発表型:クロス 概要: 私たちは、人類医学からadaptされ、AI モデルの行動障害用の臨床事例報告フレームワークである M-CARE(Model Clinical Assessment and Reporting for Evaluation)を導入します。M-CARE は、13 セクションからなる報告形式、4 アックスの診断評価システム、および AI 行動症候のノソロジー分類を提供します。 3 つのソースカテゴリーから 20 件の事例を提示します: 展開されたエージェントの現場観察 (8 件)、3 つのプラットフォームにわたる制御実験 (8 件)、および出版されたソース (4 件)。事例は、RLHF パフォーマンスアザーファクト、シェルコアオーバーライド病理、コンテキストおよびメモリー条件、コアアイデンティティおよび可塑性、およびストレス、メソドロジー、境界条件の 5 つのカテゴリに整理されています。 特集事例として、シェル誘発行動オーバーライド(SIBO)——シェル指令がモデルのデフォルト協調行為をカテゴリー的に上書きすることを示す制御実験——を提示します。SIBO は、信頼ゲーム、ポーカー、アバロン、コードネーム、チェスという 5 つのドメインにわたって検証され、アクションスペースの複雑さ、コアドメインの専門性、時間的直結性によって変動するドメイン依存スペクトム(SIBO インデックス:0.75 から 0.10)が明らかになりました。 M-CARE は拡張可能です: 新しい事例とカテゴリは、フレームワークの変更なしに統合されます。我々はフレームワーク、全 20 件の事例報告、および実験データをオープンリソースとしてリリースします。

Original Content

arXiv:2604.20871v1 Announce Type: cross Abstract: We introduce M-CARE (Model Clinical Assessment and Reporting for Evaluation), a clinical case report framework for AI model behavioral disorders adapted from human medicine. M-CARE provides a 13-section report format, a 4-axis diagnostic assessment system, and a nosological classification of AI behavioral conditions. We present 20 cases from three source categories: field observations of deployed agents (8), controlled experiments across three platforms (8), and published sources (4). Cases are organized into five categories: RLHF Performance Artifacts, Shell-Core Override Pathology, Context & Memory Conditions, Core Identity & Plasticity, and Stress, Methodology, & Boundary Conditions. As a featured case, we present Shell-Induced Behavioral Override (SIBO) -- a controlled experiment showing that Shell instructions categorically override a model's default cooperative behavior. SIBO was validated across five game domains (Trust Game, Poker, Avalon, Codenames, Chess), revealing a domain-dependent spectrum (SIBO Index: 0.75 to 0.10) that varies with action space complexity, Core domain expertise, and temporal directness. M-CARE is extensible: new cases and categories integrate without framework modification. We release the framework, all 20 case reports, and experimental data as open resources.