2031 articles

freeのリセット：マーフィー・オーリンズだけにとらわれる推理モデルからの脱出

Free(): Learning to Forget in Malloc-Only Reasoning Models

Reasoningモデルは問題解決を強化するためのテスト時のコンピュートをスケールアップしますが、彼らには大きな課題があ Meets:思考のトカゲがしばしばパフォーマンスを低下させることなく改善しないことがあります。これは、標準的なLLMsが「マーフィー・オーリンズ」のみにとらわれるエンジンであるという根本的な構造的な欠陥に基づいています：これらのモデルは常に有効かつ無効なステップを同一直線で累...

Original: arXiv:2602.08030v1 Announce Type: new Abstract: Reasoning models enhance problem-solving by scaling test-time compute, yet they face a critical paradox: excessive thinking tokens often degrade perfor...

freeのリセット：マーフィー・オーリンズだけにとらわれる推理モデルからの脱出

グラフを駆使した深層 reinforcement learning の応用：マルチオブジェクト付き並行マシンシミュレーション

懐疑的な生物データの保護：アセローラ記念大会において

社会的な強化学習における目的分離：自己中心的評価者による正解の回復

Glow: 行動アリゲーティブ・ボディー・ビゼフデクテイシャツ・コンシェルジュとしての生成AIをpoweredする精神療法技能支援システムに対するリスク probingと実現可能性テスト

RECUR: 対象の再帰事前分布を引き金とした反映展開を利用してリソースを消費する攻撃

弱音だけで学習：弱い代理によって強い代理人がより強化される

Pts-snn: 一言調節時間変動神経ネットワークを用いた、効率的な会話感情認識

G-LNS：L関man基底の自動ヒューリスティックデザイン向けに拡張された大型近傍探索法

SynthAgent: 多数代理システムフレームワークによる患者のモデリング -- オベステジーとメンタルヘルスの複合病状への事例

Puda：プライベートなユーザーデータエージェントによるユーザー主権とプライバシープロテクト

形式化されたLLM(agent)設計を Toward: 构件構造モデルと論理的なダイナミクス解析の適用

Vibe-オートメーションの自動化：ジェネレーティブAIの時代におけるコンピューターサイエンスの積極的な教育フレームワーク

ヴィジョン言語モデルにおける権化現象

誰が報酬を受ける資格があります？ SHARP: 多-Agent ディスプレイの信用分配 Optimizer

機能レベルの検証による因果推定

OPE: Reinforcement Learningによる概要を導く探索を通じて並行的思考を突破する

タイムスリープ的な知性グラフの進化モデル向上

あなたの推論モデルは、思考を絶つタイミングを暗黙的に知っているのか？

SCOUT-RAG：分散化とアクセス制限のある分布的分野での効率的な統合追跡