2031 articles

CausalT5K: めいがくていりょうに対する疑問への対応診断と情報を提供する、信頼できる因果リテラシーの理解を促進

CausalT5K: Diagnosing and Informing Refusal for Trustworthy Causal Reasoning of Skepticism, Sycophancy, Detection-Correction, and Rung Collapse

LLMによる因果性の判断においては、クーポインティングの問題やラング・コラプシオンの問題など、疑問に対する不十分な反応といった失敗例が一般的に知られています。しかし対策に関してはまだ発展途上です。このため、適切な評価基盤がないためです。我々は、十つの異なるトピックに対して合計5,000件以上の症例を対象とした診断基盤であるCausalT5Kを開発しました。これは以下の3つの重要な能力をテストするよ...

Original: arXiv:2602.08939v1 Announce Type: new Abstract: LLM failures in causal reasoning, including sycophancy, rung collapse, and miscalibrated refusal, are well-documented, yet progress on remediation is s...

CausalT5K: めいがくていりょうに対する疑問への対応診断と情報を提供する、信頼できる因果リテラシーの理解を促進

Cofine: 安定テスト時コンピューティングにおける信頼性に基づく自精査法

デジタルツインとAgentic AIによる森林火災 Disaster Management：機能性の高い仮想状況室

stable-worldmodel-v1: ワールドモデルの研究と評価に適用可能な再現性を保証する世界的なモデル

InternAgent-1.5: 長期間の自動的な科学的発見に優れた統合関節框架

iGRPO: 自己フィードバックに基づくLLMの推理

データサイエンスと技術がAGIへの道 Part I: ドライバーデータの統合管理

BERT分かち書き学習（と教え方）：有機化学の面を

超音波専用の自己 Supervised 学習を活用した胎児画像で巣胞腫の検出改善

多様なマルチロボットの協調を大規模言語モデルを使用した適応的グループ交渉フレームワークで強化する

BiomechAgent：コード生成AI代理人を通じてバイオメカニカル分析をサポート

セーフティとは？企業は如何に「安全」という概念を構築し、共有するか

影響を受けた人々がAIの公平性評価を形作る:プロセス、基準とツール

視点からスマートシステムに向けた中国語の外国語教育への新たなモードを研究: 蛱蝶型解釈からの観点

H级階立JEPAと予測的リモートコントロールの会合:5Gを超えるワイヤレスネットワーク

マルチスケール時系列ホエーホエイが人工ニューラルネットワークを効率的で頑 弾しい化する

ADのシグネチャーアルゴリズムを介するEEGとヒビクーニングニューラルネットワーク、及びバイオフォシマイクデモンストレーション間の結びつき

LLMエージェントの行動的一貫性に対する評価: ストップ・マーケットシミュレーションにおけるトレーディングスタイルの切り替え

MENAspeechbank:アソシエートデータの制御可能なPipelineおよびPersona条件付き複数のターン会話に基づく多言語音声財図

優さが知的生産から脱却するとき：研究資金の改革を振り返る研究者の観察

マルチスケール時系列ホエーホエイが人工ニューラルネットワークを効率的で頑弾しい化する