2031 articles

大規模言語モデルは詐欺検出で人間を凌駕し、動機付けられた投資家からの圧力に対して耐性を持つか

Large Language Models Outperform Humans in Fraud Detection and Resistance to Motivated Investor Pressure

arXiv:2604.20652v2 Announce Type: replace 抽象要約：人間のフィードバックで訓練された大規模言語モデルは、投資家が詐欺の機会に既に確信している状態で到達した際に詐欺警報を抑制する可能性があるかもしれない。私たちは、7 つのトップ LLM と、正当、高リスク、客観的に詐欺である機会をカバーする 12 つの投資シナリオを対象に事前登録された実験を通じてこれを検証...

Original: arXiv:2604.20652v2 Announce Type: replace Abstract: Large language models trained on human feedback may suppress fraud warnings when investors arrive already persuaded of a fraudulent opportunity. We...

大規模言語モデルは詐欺検出で人間を凌駕し、動機付けられた投資家からの圧力に対して耐性を持つか

FSFM：エージェントメモリに対する選択的な忘却を促生する生物学的灵感に基づくフレームワーク

超知性の分解：同一性、自己改変とディファランス

Attitude Change の生成モデルの安定化

One Output を超えよう：生成されたテキストの分布を可視化し比較する

HWE-Bench: リアルワールドのハードウェアバグ修正タスクにおける LLM エージェントのベンチマーク

DRBENCHER: エージェントがエンティティを特定し、その属性を取得して計算を行えるか？

推論の「なぜ」を結線する：大規模言語モデルにおける帰納的推論の統合分類体系と調査

確率論的なグラフモデルと確率構造因果モデルの関係性について

エージェント間通信プロトコルのタスク編成における実証的比較

ゲームデザイン知識表現に基づいたゲームクリエイティビティの根拠付け：構造的制約下にゴールプレイbableパターンに基づく目的のゲームパターンを生成する LLM 実行可能合成の実験的調査

SemaPop: 意味条件付きかつ制御可能な人口合成

AgencyBench：100 万トークンのリアルワールドコンテキストにおける自律エージェントの先端をベンチマーク化する

自己判断における負傷者評価の頑健化のためのマルチモーダルベイズネットワーク

ReProbe: LLM の内部状態を用いた多段階推論のテストタイムスケーリングの効率化

OpenEstimate: 不確実性下での推論における LLM の評価（実世界データの活用）

Speculative Actions: Lossless Framework for Faster Agentic Systems

逆強化学習を用いた専門家によるデモンストレーションからの推理報酬モデルの学習

PosterForest: 科学的ポスター生成のための階層型マルチエージェント協調

KompeteAI: マシンラーニング問題向けの端到端パイプライン生成を加速する自律型マルチエージェントシステム