2031 articles

arxiv_cs_ai 2026/4/20

LLM 推論における均一情報密度仮説の再考

Revisiting the Uniform Information Density Hypothesis in LLM Reasoning

arXiv:2510.06953v3 Announce Type: replace 要旨：均一情報密度 (Uniform Information Density, UID) 仮説は、効果的な通信が情報の安定した流れを通じて達成されると提案しています。本稿では、大規模言語モデル (LLM) の推論の文脈においてこの原則を再考し、ステップごとの均一性が推論の質を反映しているかどうかを問います。そのため...

Original: arXiv:2510.06953v3 Announce Type: replace Abstract: The Uniform Information Density (UID) hypothesis proposes that effective communication is achieved by maintaining a stable flow of information. In ...

arxiv_cs_ai 2026/4/20

Deliberative Searcher: 制約付き強化学習を用いた LLM の信頼性向上

Deliberative Searcher: Improving LLM Reliability via Reinforcement Learning with constraints

arXiv:2507.16727v3 発表タイプ：置換要約：大型言語モデル（LLM）を現実世界のシナリオで展開することは、その信頼性を向上させることが不可欠です。本論文では、領域開封型質問応答にリトリアルベースの検索を統合する初めてのフレームワークである **Deliberative Searcher** を提案します。エージェントはウィキペータデータを対象として多段階の反省および検証を行い、精...

Original: arXiv:2507.16727v3 Announce Type: replace Abstract: Improving the reliability of large language models (LLMs) is critical for deploying them in real-world scenarios. In this paper, we propose \textbf...

arxiv_cs_ai 2026/4/20

人物付けられた大規模言語モデルが、人間のような動機付けられた推論を示す

Persona-Assigned Large Language Models Exhibit Human-Like Motivated Reasoning

arXiv:2506.20020v2 Announce Type: replace Abstract: 人間の推論は、アイデンティティ保護といった潜在的な動機によって、合理的な意思決定と判断が損なわれるよう偏りが生じます。この extit{動機付けられた推論} は集団レベルで発生し、人間が引き起こした気候変動やワクチン安全性といった重大な課題に関する議論において社会に対して害を及ぼし、政治的分極...

Original: arXiv:2506.20020v2 Announce Type: replace Abstract: Reasoning in humans is prone to biases due to underlying motivations like identity protection, that undermine rational decision-making and judgment...

arxiv_cs_ai 2026/4/20

TabularMath: Large Language モデルによるテーブル上の数学推論の理解

TabularMath: Understanding Math Reasoning over Tables with Large Language Models

arXiv:2505.19563v4 Announce Type: replace 要約：数学推論は、大規模言語モデル（LLM）の性能を評価するための重要なベンチマークとなんばくされてきました。数学の文字問題において顕著な進展はなされつつあるものの、実世界のアплиケーションにおけるテーブルデータの推論へのニーズは見過ごされてきました。例えば、ビジネスインテリジェンスのようなアプリケーションでは...

Original: arXiv:2505.19563v4 Announce Type: replace Abstract: Mathematical reasoning has long been a key benchmark for evaluating large language models. Although substantial progress has been made on math word...

arxiv_cs_ai 2026/4/20

適応能力を有する動的サンプリング：数学的推論のための自己意識的逐次データ永続的最適化

Dynamic Sampling that Adapts: Self-Aware Iterative Data Persistent Optimization for Mathematical Reasoning

arXiv:2505.16176v2 Announce Type: replace Abstract: 数学的推論において、データ選択戦略は主に静的で外付けされた指標に依存しており、モデルの学習中に変化する能力に適応できず、この不整合は教師あり微調整と強化学習の効率を制限しています。このギャップを埋めるために、我々は「自己意識的逐次データ永続的最適化（SAI-DPO）」を導入しました。これは、モデ...

Original: arXiv:2505.16176v2 Announce Type: replace Abstract: In mathematical reasoning, data selection strategies predominantly rely on static, externally defined metrics, which fail to adapt to the evolving ...

arxiv_cs_ai 2026/4/20

AI エージェントと困難な選択

AI Agents and Hard Choices

arXiv:2504.15304v2 Announce Type: replace 要旨: AI エージェントは、複数の目的が同時に追及されるため不相容である選択肢が並存する「困難な選択」に対処できるのでしょうか。既存の哲学的文献から異なる、技術的に関与したアプローチから、現在の AI エージェントの基本的設計は最適化器として機能しており、以下の 2 つの限界を引き起こしていることを提示します：...

Original: arXiv:2504.15304v2 Announce Type: replace Abstract: Can AI agents deal with hard choices -- cases where options are incommensurable because multiple objectives are pursued simultaneously? Adopting a ...

arxiv_cs_ai 2026/4/20

WiseMind: 直感と論理に導かれた多エージェントフレームワークによる高精度かつ共感型的精神科診断

WiseMind: a knowledge-guided multi-agent framework for accurate and empathetic psychiatric diagnosis

arXiv:2502.20689v4 Announce Type: replace 要旨: 大規模言語モデル（LLM）はメンタルヘルスケアワークフローを支える有望な機会を提供していますが、信頼性の高い診断には不可欠な構造化された臨床推論に欠け、また患者の信頼を構築するために不可欠な、情緒的に配慮されたコミュニケーションを提供することに苦慮することがあります。ここでは、対症療法（Dialectica...

Original: arXiv:2502.20689v4 Announce Type: replace Abstract: Large Language Models (LLMs) offer promising opportunities to support mental healthcare workflows, yet they often lack the structured clinical reas...

arxiv_cs_ai 2026/4/20

ベンチマーキングから推論まで：ベトナム法廷書における大規模 LLm 評価の二面アプローチ

From Benchmarking to Reasoning: A Dual-Aspect, Large-Scale Evaluation of LLMs on Vietnamese Legal Text

arXiv:2604.16270v1 Announce Type: cross 要旨：ベトナムの法廷書は複雑で、これが公衆の司法へのアクセスにおける重要な障壁となっています。大規模言語モデル（LLM）は法廷書の簡素化に対して有望な解決策を提供しますが、その真の能力を評価するには、表面の指標を超えた多面的なアプローチが必要です。本稿は、このニーズに対応するための包括的な二面評価フレームワークを導入し...

Original: arXiv:2604.16270v1 Announce Type: cross Abstract: The complexity of Vietnam's legal texts presents a significant barrier to public access to justice. While Large Language Models offer a promising sol...

arxiv_cs_ai 2026/4/20

BAGEL: Language モデルにおける動物知識専門性のベンチマーク化

BAGEL: Benchmarking Animal Knowledge Expertise in Language Models

arXiv:2604.16241v1 Announce Type: cross 摘要：大規模言語モデルは広範な分野の知識や推理に対するベンチマークにおいて強力な性能を示していますが、統合された書誌のない評価プロトコルにおいて、言語モデルが専門的な動物に関連する知識を扱えるかについてはまだ明らかになっていません。BAGEL（動物知識専門性の言語モデルベンチマーク）を提示します。BAGEL は、Bio...

Original: arXiv:2604.16241v1 Announce Type: cross Abstract: Large language models have shown strong performance on broad-domain knowledge and reasoning benchmarks, but it remains unclear how well language mode...

arxiv_cs_ai 2026/4/20

"Taking Stock at FAccT": 参画型デザインを用いて、公正性、説明責任、透明性コミュニティのビジョンを共同構築する

"Taking Stock at FAccT": Using Participatory Design to Co-Create a Vision for the Fairness, Accountability and Transparency Community

arXiv:2604.16224v1 Announce Type: cross 摘要：比較的新しいフォーラムである ACM FAccT は、新たな AI と ML テクノロジーを批判的に検討する活動家および学術家の主要な場となっています。このフォーラムは、多様な分野の研究者、市民社会メンバー、政府代表者を一堂に集め、適用されているおよび提案されているテクノロジーのより広範な社会的影響を探求します。...

Original: arXiv:2604.16224v1 Announce Type: cross Abstract: As a relatively new forum, ACM FAccT has become a key space for activists and scholars to critically examine emerging AI and ML technologies. It brin...

arxiv_cs_ai 2026/4/20

表面統計を超えた LLM 向けの堅牢なコンフォーマル予測：内部表現を用いたアプローチ

Beyond Surface Statistics: Robust Conformal Prediction for LLMs via Internal Representations

arXiv:2604.16217v1 Announce Type: cross 要約：大規模言語モデルは、信頼性が重要である環境でますます普及しています。しかし、トークン確率、エントロピー、自己整合性などの出力レベルの不確実性情報は、_calibration_ とデプロイの不一致に対して脆性（脆くなる）となる可能性があります。コンフォーマル予測は、交換可能性を前提として有限サンプリンの妥当性を提供...

Original: arXiv:2604.16217v1 Announce Type: cross Abstract: Large language models are increasingly deployed in settings where reliability matters, yet output-level uncertainty signals such as token probabiliti...

arxiv_cs_ai 2026/4/20

ChemGraph-XANES: 代理ベースの XANES シミュレーションおよび分析フレームワーク

ChemGraph-XANES: An Agentic Framework for XANES Simulation and Analysis

arXiv:2604.16205v1 Announce Type: cross 摘要：計算化学における X 線吸収近接構造（XANES）解析は、化学的に複雑な系における局所配位環境、酸化状態、および電子構造を探るために広く使用されています。しかし、計算化学 XANES を大規模に利用する際、その制約は underlying simulation method（下流のシミュレーション手法）自体よりも...

Original: arXiv:2604.16205v1 Announce Type: cross Abstract: Computational X-ray absorption near-edge structure (XANES) is widely used to probe local coordination environments, oxidation states, and electronic ...

arxiv_cs_ai 2026/4/20

LLM がトラウマの影響を理解できるのか: 銃暴力生存者のインタビューをコーディングし、LLM が带来するコストと利点について

Can LLMs Understand the Impact of Trauma? Costs and Benefits of LLMs Coding the Interviews of Firearm Violence Survivors

arXiv:2604.16132v1 発表タイプ：横断研究要約：銃暴力は緊迫的な公衆衛生の問題であるものの、生存者の生きた経験に関する研究は資金不足であり、規模の拡大が困難である。包括的なインタビューを含んだ定性的研究は、コミュニティの銃暴力における個人的・社会的な結果を理解し、効果的な介入を設計する上で重要なツールである。しかし、トポピカル分析や誘導的コーディングを介してこれらの物語を手動で...

Original: arXiv:2604.16132v1 Announce Type: cross Abstract: Firearm violence is a pressing public health issue, yet research into survivors' lived experiences remains underfunded and difficult to scale. Qualit...

arxiv_cs_ai 2026/4/20

レリック状態：出版された学問研究がその置換のための素材となる時

The Relic Condition: When Published Scholarship Becomes Material for Its Own Replacement

arXiv:2604.16116v1 Announce Type: cross 要約: 当論文では、2 人の国際的に有名な人文・社会科学学者の出版されたデータセットのみから学術的推理システムを抽出し、それらを大型言語モデルの推理時の構造化制約に変換し、生成される学者ボットが専門家の評価を得た質で核となる学術機能を実行できるかをテストしました。採用された蒸留パイプラインには、ローカルのクローズドなコ...

Original: arXiv:2604.16116v1 Announce Type: cross Abstract: We extracted the scholarly reasoning systems of two internationally prominent humanities and social science scholars from their published corpora alo...

arxiv_cs_ai 2026/4/20

AI の政治経済へのreckoning: 責任追究に向けたデコイの回避

Reckoning with the Political Economy of AI: Avoiding Decoys in Pursuit of Accountability

arXiv:2604.16106v1 Announce Type: cross Abstract: AI プロジェクトは、AI システムを資金提供・開発する者が権力と富のネットワークを通じて運営し、その維持を図る世界構築の試みである。彼らは資源へのアクセスを拡大し、我々の社会技術的条件を構成するにつれ、一連のデコイが学者、批評家、政策担当者、ジャーナリスト、そして一般公众を AI 産業強化型の未来...

Original: arXiv:2604.16106v1 Announce Type: cross Abstract: The Project of AI is a world-building endeavor, wherein those who fund and develop AI systems both operate through and seek to sustain networks of po...

arxiv_cs_ai 2026/4/20

相関のあるデバイス障害に直面したフェデレーテッド学習における頑健な同期：Probabilistic Synchronous Parallel (PSP) の拡張：可用性重み付け PSP(AW-PSP)

Robust Synchronisation for Federated Learning in The Face of Correlated Device Failure

arXiv:2604.16090v1 発表タイプ: クロス要約：Probabilistic Synchronous Parallel (PSP) は、参加するノードのサブセットを毎ラウンドサンプリングすることで並列学習システムにおける同期のボトルネックを減らす技術である。フェデレーテッド学習 (FL) において、移動性、電力制約、ユーザー活動などの要因によりエッジデバイスが信頼性のないものになる...

Original: arXiv:2604.16090v1 Announce Type: cross Abstract: Probabilistic Synchronous Parallel (PSP) is a technique in distributed learning systems to reduce synchronization bottlenecks by sampling a subset of...

arxiv_cs_ai 2026/4/20

AST：適応型、無縫的、訓練不要の高精度音声編集

AST: Adaptive, Seamless, and Training-Free Precise Speech Editing

arXiv:2604.16056v1 Announce Type: cross 要約: テキストに基づく音声編集は、話者識別と音響文脈を保ちながら特定のセグメントを修正することを目的としています。既存の方法はタスク固有の訓練に依存しており、これにより高いデータコストがかかり、編集されていない領域の時間的精度に苦労しています。一方、テキスト生成（TTS）モデルの適応は、編集品質と一貫性の間のトレード...

Original: arXiv:2604.16056v1 Announce Type: cross Abstract: Text-based speech editing aims to modify specific segments while preserving speaker identity and acoustic context. Existing methods rely on task-spec...

arxiv_cs_ai 2026/4/20

ビリング暖房制御および需要側柔軟化のための安全な深層強化学習

Safe Deep Reinforcement Learning for Building Heating Control and Demand-side Flexibility

ビルは世界全体のエネルギー消費の約 40% を占め、間欠的な再生可能エネルギー源の割合が増加する中、需要側柔軟化、特に空調システムの分野において、それはグリッドの安定性とエネルギー効率にとって不可欠である。本論文では、ビルの空間暖房を最適化しながら、電力システム運用者への需要側柔軟化の提供を可能にする、安全な深層強化学習に基づく制御フレームワークを提案する。深層決定型政策勾配（DOPG）アルゴリズ...

Original: arXiv:2604.16033v1 Announce Type: cross Abstract: Buildings account for approximately 40% of global energy consumption, and with the growing share of intermittent renewable energy sources, enabling d...

arxiv_cs_ai 2026/4/20

神経記号論的なリポジトリレベルのコードロカライゼーション

Neurosymbolic Repo-level Code Localization

論文：arXiv:2604.16021v1 発表種別：横断要旨：コードロカライゼーションは自律ソフトウェア工学の柱であり、最近の進歩は現実世界の問題ベンチマークにおいて印象的な性能を達成しています。しかし、私たちはこのベンチマークがキーワード参照（例：ファイルパス、関数名）に飽和しており、モデルが真に構造的な推論に依存するよりも表面的な辞書的一致に頼ることを促すという、重大だが見過ごされたバイア...

Original: arXiv:2604.16021v1 Announce Type: cross Abstract: Code localization is a cornerstone of autonomous software engineering. Recent advancements have achieved impressive performance on real-world issue b...

arxiv_cs_ai 2026/4/20

AgentV-RL：エージェント・バーファイヤーを用いた報酬モデリングのスケールアップ

AgentV-RL: Scaling Reward Modeling with Agentic Verifier

arXiv:2604.16004v1 発表タイプ：クロス要約：バーファイヤー（検証器）は、テストタイムスケール（TTS）を通じて LLM の論理的推論能力向上が実証されていますが、複雑なドメインでは大きな課題に直面しています。間接推論の誤りが伝播することで、妥当性のある解に誤った肯定が生じ、かつ外部的事実への接地が不十分であるため、計算や知識集約型タスクにおいてバーファイヤーの信頼性が損なわれ...

Original: arXiv:2604.16004v1 Announce Type: cross Abstract: Verifiers have been demonstrated to enhance LLM reasoning via test-time scaling (TTS). Yet, they face significant challenges in complex domains. Erro...