2031 articles

Verifiable Accuracy と Abstention Rewards を持つ Curriculum RL を用いたマルチターン対話における「Lost in Conversation」の緩和

Mitigating Lost in Multi-turn Conversation via Curriculum RL with Verifiable Accuracy and Abstention Rewards

arXiv:2510.18731v2 Announce Type: replace-cross 要約: 大規模言語モデル (LLM) は単一ターンの指示追従において強力な性能を示しますが、情報が段階的に開示されるマルチターンの場面で「対話の喪失 (Lost-in-Conversation, LiC)」という性能劣化を経験します。現在、検証可能な報酬 (Verifiable Rewards) を持つ...

Original: arXiv:2510.18731v2 Announce Type: replace-cross Abstract: Large Language Models demonstrate strong capabilities in single-turn instruction following but suffer from Lost-in-Conversation (LiC), a degr...

Verifiable Accuracy と Abstention Rewards を持つ Curriculum RL を用いたマルチターン対話における「Lost in Conversation」の緩和

RV-HATE: 明示的否定的嫌悪発言検出を強化するマルチモジュール投票システム

CD証拠正規化とゲージ緩衝されたロックアンサンブルを通じた$P eq NP$へのクォランタル・弱体化アプローチ

マルチモーダルアクティブ学習へ：限られたペア付きデータでの効率的な学習

ChessArena: 大規模言語モデルの戦略的推論能力を評価するためのチェステストベッド

Compose and Fuse: Multimodal Reasoning の基盤的ボトルネックの再検討

文脈こそが必要：現実世界の LLM の限界における最大効果的文脈ウィンドウ

InfiniPipe: 効率性の高い変長長コンテキスト LLM 訓練のための弾力性 Pipeline 並列化

HyperAdapt: 単純かつ高ランク適応

微分プライバシーへの包括的なガイド：理論からユーザーの期待まで

拡散トランスフォーマーによる代数的言語モデルを介したメタマテリアルの逆設計

mGRADE: Minimal Recurrent Gating Meets Delay Convolutions for Lightweight Sequence Modeling

安全性を意識した探査による LLM ファインチューニングの強化

ロジックジャイルブレイク：形式論理表現を介した LLM 安全制限の効率的な解除

SafeMERGE: セレクティブな層別モデルマージによるファインチューニングされた大規模言語モデルにおける安全性アライメントの維持

The Economics of p(doom): Scenarios of Existential Risk and Economic Growth in the Age of Transformative AI

活性化パターンの分析に基づく解析的 FFN からの MoE への再構築

大規模言語モデルと小規模言語モデルのための連合共同調整フレームワーク

基礎モデルに基づく強化学習：エンボディドエージェントが自律的に効率的に学習する

音声からの変換基本文法：未訓練したディープニューラルネットワークにおける自発的な接続