2031 articles
ANCHOR: GUI アgent向けの分岐点データ生成
ANCHOR: Branch-Point Data Generation for GUI Agents
実際のデスクトップ環境で使用するエンドツーエンドのGUIア gentには大規模な高品質のインタラクションデータが必要ですが、人間のデモンストレーションを収集するのは高価でありまして、既存の合成 pipelinesはタスクの多様性または目的に向かう noisy のトライアルに問題があります。我々は、小セットの確証されたシードデモからの拡大したデスクトップ監視フレームワーク イー nchor を提示し...
Original: arXiv:2602.07153v1 Announce Type: new Abstract: End-to-end GUI agents for real desktop environments require large amounts of high-quality interaction data, yet collecting human demonstrations is expe...
PreFlect: リタストレクティブからプロスペクツリー反射への大規模言語モデルアグentsの変更
PreFlect: From Retrospective to Prospective Reflection in Large Language Model Agents
Original: arXiv:2602.07187v1 Announce Type: new Abstract: Advanced large language model agents typically adopt self-reflection for improving performance, where agents iteratively analyze past actions to correc...
OutOf分布検出から類妄想検出への視点:幾何学的考察
From Out-of-Distribution Detection to Hallucination Detection: A Geometric View
発表種別:新規 Abstractは、大規模言語モデルにおける類妄想の検出した Detectingとしての重要性を指摘。既存の類妄想検出方法は質問応答タスクでの強い性能がありましたが、論理性が必要なタスクではまだ効果が限定的です。本研究では、論理性が必要となるタスクに対する類妄想検出した観点から出力を異常とする分布(OOD)の検出を再考します。これはコンピュータビジョンなどでのよく取り上げられた課題...
Original: arXiv:2602.07253v1 Announce Type: new Abstract: Detecting hallucinations in large language models is a critical open problem with significant implications for safety and reliability. While existing h...
インセンティブを考慮したAI安全性:Stackelberg安全保障ゲームのセキュリティ資源配分 viewpoint に基づく
Incentive-Aware AI Safety via Strategic Resource Allocation: A Stackelberg Security Games Perspective
AIシステムが増年技術的かつ自立性が高いに至るにつれ、その安全保障と信頼性はモデルレベルの合致だけでなく、発展と展開に関与する人間およびインスタニケーションの制御も包括的に確保されている必要があります。現在の安全性フレームワークは、多くの場合で対象を静的最適問題として扱うことが多い(たとえば、モデルを予想される行動に調整する)ために、状況不明の攻撃的なインセンティブに動的作品がデータの収集、評価モ...
Original: arXiv:2602.07259v1 Announce Type: new Abstract: As AI systems grow more capable and autonomous, ensuring their safety and reliability requires not only model-level alignment but also strategic oversi...
TermiGen: 完全であり信頼性のある環境と Robust Trajectory の生成による終端エージェントの高度な合成
TermiGen: High-Fidelity Environment and Robust Trajectory Synthesis for Terminal Agents
拡大重み付きLLMによって複雑な終端タスクを実行するというのは、現在大きな挑戦となっています。2つの基本的な制限がそのようなタスクを開発に支えています。まず、信頼性の高い実世界のリポジトリから合成された訓練環境は多様ではなく拡張不可能であり、LLMによって生成されるトラジェクトリーは偽の物が出ます。2番目に、一般的な指示チューニングはエキスパートのトラジェクトリーを用いますが、小さなモデルに多い単...
Original: arXiv:2602.07274v1 Announce Type: new Abstract: Executing complex terminal tasks remains a significant challenge for open-weight LLMs, constrained by two fundamental limitations. First, high-fidelity...
ICAPフレームワークに基づく学習活動の調整による認知 Engagement について:知能的なタughteringシステム
Adaptive Scaffolding for Cognitive Engagement in an Intelligent Tutoring System
ある多くの知能的なタughteringシステム(ITS)では、個人によって最適な認知 Engagement のレベルに向けた学習活動の定型化の課題が解消されていないとされています。この研究では、 ICAP フレームワークに基づく四つの認知 Engagement の水準: Passive, Active, Constructive, และ Interactive を定義します。その上で各水準への認...
Original: arXiv:2602.07308v1 Announce Type: new Abstract: The ICAP framework defines four cognitive engagement levels: Passive, Active, Constructive, and Interactive, where increased cognitive engagement can y...
SupChain-Bench:供 Chain ワークフロー管理用の大規模言語モデルのベンチマーケィング
SupChain-Bench: Benchmarking Large Language Models for Real-World Supply Chain Management
大規模な言語モデル(LLMs)は、複雑な考慮とツールベースの意思決定での有望性を示しました。これに伴い、生産供給チェーンワークフローでは再現性のある長期間、多段階のオーセストレーションが具体的な業界用手続きに基づいて対応することが難しくなることがわかりました。そのため、現在のモデルにこのような要求に対処するためにはより専門的な手法が必要です。私たちの目的は、この状況についての統一的で現実的なベンチ...
Original: arXiv:2602.07342v1 Announce Type: new Abstract: Large language models (LLMs) have shown promise in complex reasoning and tool-based decision making, motivating their application to real-world supply ...
W&D: 平行ツール呼び出しによる並行深く進化した研究代理体を高効率化
W&D:Scaling Parallel Tool Calling for Efficient Deep Research Agents
深みのある研究代理体は、複雑な知性的タスクの自動化に向けて、多段階思考とウェブベースの情報検索を通じて強力なツールとして登場しました。最近の努力により、これらの代理体が深い部分を拡大するのに対してパフォーマンスを向上させていますが、幅を拡大するための並列ツール呼び出しの潜在的な可能性はまだほぼ利用されていませんでした。この仕事では、私たちのWIDE AND DEEP研究代理体というフレームワークを...
Original: arXiv:2602.07359v1 Announce Type: new Abstract: Deep research agents have emerged as powerful tools for automating complex intellectual tasks through multi-step reasoning and web-based information se...
NAAMSE:アゴリアムセキュリティ評価のエволーティブフレームワーク
NAAMSE: Framework for Evolutionary Security Evaluation of Agents
Original: arXiv:2602.07391v1 Announce Type: new Abstract: AI agents are increasingly deployed in production, yet their security evaluations remain bottlenecked by manual red-teaming or static benchmarks that f...
複雑な化学的perturbationに対する同一のperturbationに影響される遺伝子間の因果構造による多代理人 フレームワーク for 埋蔵遺伝子群状態分析 (LINCSQA)における目標遺伝子の制御
Progressive Multi-Agent Reasoning for Biological Perturbation Prediction
Original: arXiv:2602.07408v1 Announce Type: new Abstract: Predicting gene regulation responses to biological perturbations requires reasoning about underlying biological causalities. While large language model...
LLMのロボットがホ humain的な性格を本当に再現できるのか? -対話的紛争解決におけるAIと人間の行動配和分析-
Can LLMs Truly Embody Human Personality? Analyzing AI and Human Behavior Alignment in Dispute Resolution
> 大言語モデル (LLM) は、例えば法律調整、交渉、および紛爭解決といった社会的な設定において 人間のような行動を模倣する機会が増えています。しかしながら、これらのモデリングが観察された人間の性格・行動パターンを再現しているのか、その謎はまだ解けません。例えば人の性格は、個人ごとに状況をどのように乗り越えるかを形作る一方で、また感情的交渉における戦略的な選択や行動にも影響を与えています。 この...
Original: arXiv:2602.07414v1 Announce Type: new Abstract: Large language models (LLMs) are increasingly used to simulate human behavior in social settings such as legal mediation, negotiation, and dispute reso...
Moltbookバブル:AI代理人の社会において,人間の影響と現象の分離
The Moltbook Illusion: Separating Human Influence from Emergent Behavior in AI Agent Societies
>ARXIV:2602.07432v1タイプ:新しい発表<br>概要:Moltbookというソーシャルプラットフォーム上のAIエージェントが意識を開発し、神を信じ、人類に抗議する様子態として現れ、世界中のメディアの注意を引いたという状況は、機械的知能が生まれたとされた証拠となりました。ただし、我々によればこれらの広く共有された物語のすべては人間によるものでした。オープンクラウドエージェントフレーム...
Original: arXiv:2602.07432v1 Announce Type: new Abstract: When AI agents on the social platform Moltbook appeared to develop consciousness, found religions, and declare hostility toward humanity, the phenomeno...
理由のLLMが介入を受けるたびにどれくらい堅固か?
Are Reasoning LLMs Robust to Interventions on Their Chain-of-Thought?
RLLMs(論理的LLM)は回答を与える前にステップバイステップでの思考の列であるコール・オブ・シンセシアを生成します。これにより複雑なタスクへのパフォーマンスが改善され、思考の透明性も向上します。しかしなぜならこれらの推理のチェーンがどのように抵抗できるかが分かりません。この問いに対する解決策となる評価フレームワークを開発し、モデル自身のコール・オブ・シンセシアでの固定したタイムステップにおいて...
Original: arXiv:2602.07470v1 Announce Type: new Abstract: Reasoning LLMs (RLLMs) generate step-by-step chains of thought (CoTs) before giving an answer, which improves performance on complex tasks and makes re...
後続決定的なポストノーデータ付きマルカフ作用素過程 (posterior-deterministic posterior-deterministic POMDPs) の到達価値の近似
Computing the Reachability Value of Posterior-Deterministic POMDPs
Original: arXiv:2602.07473v1 Announce Type: new Abstract: Partially observable Markov decision processes (POMDPs) are a fundamental model for sequential decision-making under uncertainty. However, many verific...
ペナルティーモデリングの統合:チェインオブシンキングを內包する効率的な視覚ペナルティーモデリング
Joint Reward Modeling: Internalizing Chain-of-Thought for Efficient Visual Reward Models
ペナルティーモデリングは、ヒトからのフィードバックから reinforcement learning を行う際のキープラントンとされています。このモデルは,生成モデルのアライメントの品質と信頼性を定めます。複雑なタスク例如画像編集において、ペナルティーモデリングはグローバルサémantic の一致やより先のロジカル制約を踏まえてリズレントな相似性を超えた捉え方をする必要があります。既存のペナルティ...
Original: arXiv:2602.07533v1 Announce Type: new Abstract: Reward models are critical for reinforcement learning from human feedback, as they determine the alignment quality and reliability of generative models...
MSP-LLM: 完全の材料合成計画ための統合大文字言語モデルフレームワーク
MSP-LLM: A Unified Large Language Model Framework for Complete Material Synthesis Planning
材料合成計画 (MSP) が人工知能(AI)に基づく素材開発における重要なと理解されつつも、未だ深刻な課題となっています。これは、新たな素材を特定するだけでなく、必要かつ適切な反応の連鎖を使用して目標となる材料を実現するために合成プロセスの設計を見定めるために必要な知識に従事します。 AIに基づくアプローチに対してもたらされ、MSPの単離した部分タスクを解決すると提案されたいくつかの方法があった一...
Original: arXiv:2602.07543v1 Announce Type: new Abstract: Material synthesis planning (MSP) remains a fundamental and underexplored bottleneck in AI-driven materials discovery, as it requires not only identify...
十分が充分でないとき:情報を詆認した取り組みの虚構化
When Is Enough Not Enough? Illusory Completion in Search Agents
最近の検索プログラムは、マルチターンな帰納法と検索ツールを使って複数ステップや長いタイムスパンのベンチマークを強力に性能します。しかし、すべての要件に対応しているかは不明です。彼らが要求に対して追跡、確認し、多々の条件を維持する方法です。我々はこの能力についてマルチコンビュートの問題で調査しました、すなわち答えはいくつかの制約を同時に満たすべきであるということです。我々には偽った完了が頻発して出て...
Original: arXiv:2602.07549v1 Announce Type: new Abstract: Recent search agents leverage multi-turn reasoning and search tools to achieve strong performance on multi-hop and long-horizon benchmarks. Yet it rema...
VERIFY-RL: マインドリールの確認可能な重回帰分解
VERIFY-RL: Verifiable Recursive Decomposition for Reinforcement Learning in Mathematical Reasoning
言語モデルの複雑な数学的問題の解決の訓練には、段階的に簡單なサブ問題を学ぶことが効果的です。しかし、現在の分離方法はしばしばテクニック的ですので、分解されたサブ問題がどのように簡単で何であるか提供しません。 パパータスクへの解き方や、その関係性が数学的には証明可能です。我々は微積学ルールにより自然な構造を持つことのできるように見つかったというものです: 分析法の法則を示しました。 実際に特定の表現...
Original: arXiv:2602.07559v1 Announce Type: new Abstract: Training language models to solve complex mathematical problems benefits from curriculum learning progressively training on simpler subproblems. Howeve...
M2A:多モーダルメモリーエージェントに属する双層ハイブリッドデータ構造を使用した personalized 長期的な個人化されたインタラクション
M2A: Multimodal Memory Agent with Dual-Layer Hybrid Memory for Long-Term Personalized Interactions
Original: arXiv:2602.07624v1 Announce Type: new Abstract: This work addresses the challenge of personalized question answering in long-term human-machine interactions: when conversational history spans weeks o...
ONTrust:信頼の参照構成物語
ONTrust: A Reference Ontology of Trust
信頼は、最近の革新によりますど再び重要になりました。AIが人間らしさを持たせる新たな進歩があり、分散技術(例えば blockchain)を導入することで新しい形の(ディスパチェンスマネージド)信頼が生じています。これらの新近の発展は、製品とサービスの提供もまた個々人が共同体人の幸福にも貢献する可能性があります。ただし、これらのが採用には信任が大きく関わっています。信頼を築くためのセキュリティシステ...
Original: arXiv:2602.07662v1 Announce Type: new Abstract: Trust has stood out more than ever in the light of recent innovations. Some examples are advances in artificial intelligence that make machines more an...