2031 articles

arxiv_cs_ai 2026/4/24

大規模言語モデルは詐欺検出で人間を凌駕し、動機付けられた投資家からの圧力に対して耐性を持つか

Large Language Models Outperform Humans in Fraud Detection and Resistance to Motivated Investor Pressure

arXiv:2604.20652v2 Announce Type: replace 抽象要約:人間のフィードバックで訓練された大規模言語モデルは、投資家が詐欺の機会に既に確信している状態で到達した際に詐欺警報を抑制する可能性があるかもしれない。私たちは、7 つのトップ LLM と、正当、高リスク、客観的に詐欺である機会をカバーする 12 つの投資シナリオを対象に事前登録された実験を通じてこれを検証...

Original: arXiv:2604.20652v2 Announce Type: replace Abstract: Large language models trained on human feedback may suppress fraud warnings when investors arrive already persuaded of a fraudulent opportunity. We...

arxiv_cs_ai 2026/4/24

FSFM:エージェントメモリに対する選択的な忘却を促生する生物学的灵感に基づくフレームワーク

FSFM: A Biologically-Inspired Framework for Selective Forgetting of Agent Memory

arXiv:2604.20300v2 公式宣言 型:更新 摘要: LLM エージェントにおいて、メモリ管理は効率性、品質、セキュリティに決定的に影響を与えます。多くの研究が保持に焦点を当てていますが、人間のかognitive プロセス(海馬におけるインデックス化/統合理論および Ebbinghaus 忘却曲線)に着想を得た選択的忘却についてはまだ十分に研究されていません。我々は、リソース制約のあ...

Original: arXiv:2604.20300v2 Announce Type: replace Abstract: For LLM agents, memory management critically impacts efficiency, quality, and security. While much research focuses on retention, selective forgett...

arxiv_cs_ai 2026/4/24

超知性の分解:同一性、自己改変とディファランス

Deconstructing Superintelligence: Identity, Self-Modification and Diff\'erance

arXiv:2604.19845v2 Announce Type: replace 要約:自己改変はしばしば人工超知性(SI)の本質とされ、改変はその作用を外部の補完を必要とする相対的な行為である。自己改変がその補完に及ぶと、古典的な自己参照構造は崩壊する。われらは、更新演算子 \(\hat{U}\)、識別演算子 \(\hat{D}\)、自己表現演算子 \(\hat{R}\) を持つ連立演算子代数...

Original: arXiv:2604.19845v2 Announce Type: replace Abstract: Self-modification is often taken as constitutive of artificial superintelligence (SI), yet modification is a relative action requiring a supplement...

arxiv_cs_ai 2026/4/24

Attitude Change の生成モデルの安定化

Stabilising Generative Models of Attitude Change

arXiv:2604.19791v2 Announce Type: replace 要約:態度変化(個々が評価的な立場を見直し、それを修正していくプロセス)は、多くの影響力的だが互いに競合する言語理論によって説明されてきました。これらの記述は、概念の詳細には富みつつも、実行可能なシステムとして動作させるために必要な技術的な仕様や運用上の制約が不足した、「メカニズムのスケッチ」として機能することが多...

Original: arXiv:2604.19791v2 Announce Type: replace Abstract: Attitude change - the process by which individuals revise their evaluative stances - has been explained by a set of influential but competing verba...

arxiv_cs_ai 2026/4/24

One Output を超えよう:生成されたテキストの分布を可視化し比較する

Beyond One Output: Visualizing and Comparing Distributions of Language Model Generations

arXiv:2604.18724v2 Announce Type: replace Abstract: ユーザーは通常、大規模言語モデル(LM)と single output(単一出力)を通じて対話・評価していますが、各出力は可能な完結ものの広範な分布からの単一のサンプルに過ぎません。この対話は、モードや稀なエッジケース、あるいはプロンプトの微小な変化に対する感受性などの分布構造を隠蔽し、結果と...

Original: arXiv:2604.18724v2 Announce Type: replace Abstract: Users typically interact with and evaluate language models via single outputs, but each output is just one sample from a broad distribution of poss...

arxiv_cs_ai 2026/4/24

HWE-Bench: リアルワールドのハードウェアバグ修正タスクにおける LLM エージェントのベンチマーク

HWE-Bench: Benchmarking LLM Agents on Real-World Hardware Bug Repair Tasks

arXiv:2604.14709v2 発表型:置換 要約: 既存のハードウェア設計ベンチマークは、仕様から HDL モジュールを生成するなど、孤立した部品レベルのタスクに大規模言語モデル (LLM) を評価するのみであり、リポジトリ規模の評価を対応していません。本研究では、LLM エージェントによるリアルワールドのハードウェアバグ修正タスクを評価するための、最初の大型リポジトリレベルベンチマークで...

Original: arXiv:2604.14709v2 Announce Type: replace Abstract: Existing benchmarks for hardware design primarily evaluate Large Language Models (LLMs) on isolated, component-level tasks such as generating HDL m...

arxiv_cs_ai 2026/4/24

DRBENCHER: エージェントがエンティティを特定し、その属性を取得して計算を行えるか?

DRBENCHER: Can Your Agent Identify the Entity, Retrieve Its Properties and Do the Math?

arXiv:2604.09251v2 Announce Type: replace 要旨: ディープリサーチエージェントは、ウェブサーフィンとマルチステップ計算を交互に実行するようになっていますが、既存のベンチマークはこれらを個別に評価しており、現実世界の性能を評価する盲点を生んでいます。我々は、検索と計算を必要とする問題のための合成ベンチマーク生成器である DRBENCHER を提案します。この...

Original: arXiv:2604.09251v2 Announce Type: replace Abstract: Deep research agents increasingly interleave web browsing with multi-step computation, yet existing benchmarks evaluate these capabilities in isola...

arxiv_cs_ai 2026/4/24

推論の「なぜ」を結線する:大規模言語モデルにおける帰納的推論の統合分類体系と調査

Wiring the 'Why': A Unified Taxonomy and Survey of Abductive Reasoning in LLMs

arXiv:2604.08016v2 Announce Type: replace Abstract: 人間の発見と認識の基礎的な役割を果たしている帰納的推論(観察事実に最も可能性の高い説明を導き出す推論)は、大規模言語モデル(LLMs)において相対的に十分に研究されていない。LLM の急速な進歩にもかかわらず、帰納的推論とその多様な側面に関する研究は統合されたものではなく断片的なままであった。こ...

Original: arXiv:2604.08016v2 Announce Type: replace Abstract: Regardless of its foundational role in human discovery and sense-making, abductive reasoning--the inference of the most plausible explanation for a...

arxiv_cs_ai 2026/4/24

確率論的なグラフモデルと確率構造因果モデルの関係性について

On the Relationship between Bayesian Networks and Probabilistic Structural Causal Models

arXiv:2603.27406v2 Announce Type: replace 本論文では、確率論的なグラフモデル(特にベイズ的网络)と因果図(構造因果モデル)間の関係を研究します。構造因果モデルは、構造方程式や関数に基づいた確定的なモデルであり、確率変数を追加することで不確実性を備えることが可能です。具体的には、確率変数をモデルに追加し、それらが確率分布を備えている状態です。ここで生じる質問...

Original: arXiv:2603.27406v2 Announce Type: replace Abstract: In this paper, the relationship between probabilistic graphical models, in particular Bayesian networks, and causal diagrams, also called structura...

arxiv_cs_ai 2026/4/24

エージェント間通信プロトコルのタスク編成における実証的比較

Empirical Comparison of Agent Communication Protocols for Task Orchestration

arXiv:2603.22823v3 Announce Type: replace 要旨 背景。大規模言語モデル(LLM)アジェントのタスク編成のための通信プロトコルの比較評価の問題が検討されています。研究の対象は、タスク編成中の LLM アジェントと外部ツールの間の相互作用、および自律的な LLM アジェント間の相互作用です。目的。本研究の目標は、標準化されたクエリにおいてツール統合、マルチエー...

Original: arXiv:2603.22823v3 Announce Type: replace Abstract: Context. The problem of comparative evaluation of communication protocols for task orchestration by large language model (LLM) agents is considered...

arxiv_cs_ai 2026/4/24

ゲームデザイン知識表現に基づいたゲームクリエイティビティの根拠付け:構造的制約下にゴールプレイbableパターンに基づく目的のゲームパターンを生成する LLM 実行可能合成の実験的調査

Grounding Machine Creativity in Game Design Knowledge Representations: Empirical Probing of LLM-Based Executable Synthesis of Goal Playable Patterns under Structural Constraints

arXiv:2603.07101v3 発表タイプ:置換 要旨:複雑なゲームプレイアイデアを実行可能なアートファクト(Unity プロジェクトやコードなど)に変換することは、計算機ゲームクリエイティビティにおける中心的な課題です。ゲームプレイデザインパターンは、ゲームプレイ現象を記述するための構造化された表現を提供し、デザイナーが高レベルのアイデアをエンティティ、制約、およびルール駆動のダイナミク...

Original: arXiv:2603.07101v3 Announce Type: replace Abstract: Creatively translating complex gameplay ideas into executable artifacts (e.g., games as Unity projects and code) remains a central challenge in com...

arxiv_cs_ai 2026/4/24

SemaPop: 意味条件付きかつ制御可能な人口合成

SemaPop: Semantic-Persona Conditioned and Controllable Population Synthesis

arXiv:2602.11569v2 Announce Type: replace Abstract: 人口合成は交通計画や社会経済分析における個体レベルのシミュレーションに不可欠であるが、統計的依存関係と高次元の行動的意味の両方を捉える必要性により依然として困難である。既存のデータ駆動アプローチは主に無条件生成に依存しており、シナリオ駆動型または目的指向型の人口合成をサポートする能力に制限がある...

Original: arXiv:2602.11569v2 Announce Type: replace Abstract: Population synthesis is essential for individual-level simulation in transport planning and socio-economic analysis, yet remains challenging due to...

arxiv_cs_ai 2026/4/24

AgencyBench:100 万トークンのリアルワールドコンテキストにおける自律エージェントの先端をベンチマーク化する

AgencyBench: Benchmarking the Frontiers of Autonomous Agents in 1M-Token Real-World Contexts

arXiv:2601.11044v4 Announce Type: replace 摘 要: Large Language Models (LLMs) に基づく自律エージェントは、経済生産に大きく貢献する多角的な能力を示している。しかし、既存のベンチマークは単一のエージェント機能に焦点を当てられており、長期のリアルワールドシナリオを捉えていない。また、現実的なタスクに対する人間によるフィードバック...

Original: arXiv:2601.11044v4 Announce Type: replace Abstract: Large Language Models (LLMs) based autonomous agents demonstrate multifaceted capabilities to contribute substantially to economic production. Howe...

arxiv_cs_ai 2026/4/24

自己判断における負傷者評価の頑健化のためのマルチモーダルベイズネットワーク

Multimodal Bayesian Network for Robust Assessment of Casualties in Autonomous Triage

arXiv:2512.18908v2 Announce Type: replace 本稿では、多様なコンピュータビジョンモデルの出力を、専門家が定義したルールにより構成されたベイズネットワークに統合した意思決定支援フレームワークを提示します。同アプローチは、重度の出血、呼吸困難、身体的な意識、または可視的な外傷の徴候を推定します。従来のデータ駆動型モデルとは異なり、私たちの手法はトレーニングデータ...

Original: arXiv:2512.18908v2 Announce Type: replace Abstract: Mass Casualty Incidents can overwhelm emergency medical systems and resulting delays or errors in the assessment of casualties can lead to preventa...

arxiv_cs_ai 2026/4/24

ReProbe: LLM の内部状態を用いた多段階推論のテストタイムスケーリングの効率化

ReProbe: Efficient Test-Time Scaling of Multi-Step Reasoning by Probing Internal States of Large Language Models

arXiv:2511.06209v5 Announce Type: replace **Abstract** LLM は、長尺かつ多段階の推論連鎖を生成することで複雑なタスクを解決できます。テストタイムスケーリング(Test-Time Scaling、以下 TTS)は、中間の推論ステップの多様なバリアントをサンプリングし、その正解性を検証してから最良のステップを選択するプロセスを通じて、さらに性...

Original: arXiv:2511.06209v5 Announce Type: replace Abstract: LLMs can solve complex tasks by generating long, multi-step reasoning chains. Test-time scaling (TTS) can further improve performance by sampling m...

arxiv_cs_ai 2026/4/24

OpenEstimate: 不確実性下での推論における LLM の評価(実世界データの活用)

OpenEstimate: Evaluating LLMs on Reasoning Under Uncertainty with Real-World Data

arXiv:2510.15096v2 Announce Type: replace 要旨: 言語モデル(LM)が医療、金融、その他の知識労働分野など広範なドメインで運用されている実際の環境では、モデルは不完全な情報を扱う必要があります。しかし、多くの LLM 評価は定義された答えと成功基準を持つ問題に焦点を当てています。このギャップは、不確実性を含む自然な問題を構築するのが困難であるための一部で...

Original: arXiv:2510.15096v2 Announce Type: replace Abstract: Real-world settings where language models (LMs) are deployed -- in domains spanning healthcare, finance, and other forms of knowledge work -- requi...

arxiv_cs_ai 2026/4/24

Speculative Actions: Lossless Framework for Faster Agentic Systems

Speculative Actions: A Lossless Framework for Faster Agentic Systems

arXiv:2510.04371v2 Announce Type: replace Abstract: 人工知能(AI)エージェントは、複雑で相互作用的な環境でますます広く展開されているが、その実行時間がトレーニング、評価、そして実世界的应用における主要なボトルネックとなっている。一般的なエージェントの動作は順次的に展開され、各アクションは API 呼び出しを必要とし、それが大幅なレイテンシを引...

Original: arXiv:2510.04371v2 Announce Type: replace Abstract: AI agents are increasingly deployed in complex, interactive environments, yet their runtime remains a major bottleneck for training, evaluation, an...

arxiv_cs_ai 2026/4/24

逆強化学習を用いた専門家によるデモンストレーションからの推理報酬モデルの学習

Learning Reasoning Reward Models from Expert Demonstration via Inverse Reinforcement Learning

arXiv:2510.01857v3 Announce Type: replace 要約: 現在の大規模言語モデル(LLM)の推理性能向上アプローチは、主に専門家による追跡(expert traces)からの上流微调(SFT)または、成果レベルの報酬を持つ強化学習(RL)に依存しています。しかし、SFT は本質的に模倣に過ぎず、成果ベースの RL は正確に指定された検証器へのアクセスを前提としま...

Original: arXiv:2510.01857v3 Announce Type: replace Abstract: Current approaches to improving reasoning in large language models (LLMs) primarily rely on either supervised fine-tuning (SFT) over expert traces ...

arxiv_cs_ai 2026/4/24

PosterForest: 科学的ポスター生成のための階層型マルチエージェント協調

PosterForest: Hierarchical Multi-Agent Collaboration for Scientific Poster Generation

arXiv:2508.21720v2 Announce Type: replace 要旨:科学的ポスターの自動生成には、階層的ドキュメント理解と統合的なコンテンツ・レイアウト計画が必要です。既存の手法は、しばしばフラットな要約に依存し、コンテンツとレイアウトを個別に最適化する傾向があり、その結果、情報の喪失、論理的不整合、および視覚的不平衡といった問題を引き起こします。本稿では、科学的ポスター生成...

Original: arXiv:2508.21720v2 Announce Type: replace Abstract: Automating scientific poster generation requires hierarchical document understanding and coherent content-layout planning. Existing methods often r...

arxiv_cs_ai 2026/4/24

KompeteAI: マシンラーニング問題向けの端到端パイプライン生成を加速する自律型マルチエージェントシステム

KompeteAI: Accelerated Autonomous Multi-Agent System for End-to-End Pipeline Generation for Machine Learning Problems

arXiv:2508.10177v3 Announce Type: replace Abstract: 最近の大規模言語モデル(LLM)に基づく自動機械学習(AutoML)システムは印象的な能力を示していますが、探索戦略の制限や深刻な実行ボトルネックといった重大な制限に直面しています。探索は、多様性に欠けるワンショット手法に阻害され、強力な部分解決策を再結合できないモンテカルロ木探索(MCTS)...

Original: arXiv:2508.10177v3 Announce Type: replace Abstract: Recent Large Language Model (LLM)-based AutoML systems demonstrate impressive capabilities but face significant limitations such as constrained exp...