2031 articles
病気予測の再考:透明性と信頼性を統合する反射的な知能アーキテクチャの展開
Rethinking Explainable Disease Prediction: Synergizing Accuracy and Reliability via Reflective Cognitive Architecture
医療診断において、予測モデルは一般的に高い精度を目指すべきである一方で、 interpretable 方法はしばしば正確さや統計的基礎が欠けていることが多いです。この論文では、優れた予測性能と高品質な説明の双方を実現することは競合する目標ではなく、深く実体的なデータ理解を通じて synergistic なる結果であることを疑わせます。そして本稿は reflective cognitive arch...
Original: arXiv:2509.21266v2 Announce Type: replace Abstract: In clinical decision-making, predictive models face a persistent trade-off: accurate models are often opaque "black boxes," while interpretable met...
正しい推理パスを訪れる共有決定転換点:visit shared decision pivots
Correct Reasoning Paths Visit Shared Decision Pivots
Original: arXiv:2509.21549v3 Announce Type: replace Abstract: Chain-of-thought (CoT) reasoning exposes the intermediate thinking process of large language models (LLMs), yet verifying those traces at scale rem...
TRACE:回路グラフの計算を学ぶ
TRACE: Learning to Compute on Circuit Graphs
有効性のある構造に準拠した backbone を抱える TRACE により、伝票グラフの機能的な行動に関するモデルの学習が解決されました。それ以前はこの基本的な問題に対する主流 paradigm は、従来型トランスフォーマーベースのコアと呼ばれるものが適切でないものでした。これはメッセージ転送ニューラルネットワーク(MPNNs)と同様のトランスフォーマータイプの論理に陥り、グラフを解釈しないという...
Original: arXiv:2509.21886v2 Announce Type: replace Abstract: Learning to compute, the ability to model the functional behavior of a circuit graph, is a fundamental challenge for graph representation learning....
Agentic AI レアリングのモバイルエッジ一般知能:基礎、アプローチ、方向
Agentic AI Reasoning for Mobile Edge General Intelligence: Fundamentals, Approaches, and Directions
大型言語モデル (LLM) の急速な進歩により、強力な推理と自律的な意思決定能力を持つ局内的人工知能 (AI) が出現した。これには、Edge Computing の組み合わせがあり、これがMobile Edge General Intelligence(MEGI)の開発を促しました。これはネットワークエッジにリアルタイムでプライバシー保証した推理を提供します。しかし、AGGICに基づいた LLM...
Original: arXiv:2509.23248v2 Announce Type: replace Abstract: The rapid advancement of large language models (LLMs) has enabled an emergence of agentic artificial intelligence (AI) with powerful reasoning and ...
AIReg-Bench: AI規制適合性評価におけるLLMのパフォーマンス測定のためのオープンベンチマークデータセット
AIReg-Bench: Benchmarking Language Models That Assess AI Regulation Compliance
自治体がAIを規制しようとする中で、大規模言語モデル(LLM)を利用してAIシステムが特定のAI Regulation (AIR)に適合しているかどうかを見積もることに興味があるのが増えてきています。しかし現在、LLMがこのタスクでのパフォーマンスを正しく測定する仕組みはありませんでした。そのためには、AIReg-Benchが必要となりました:これはEUのAI法(AIA)への適合性を見極めるための...
Original: arXiv:2510.01474v3 Announce Type: replace Abstract: As governments move to regulate AI, there is growing interest in using Large Language Models (LLMs) to assess whether or not an AI system complies ...
SurveyG: 多_agent ラグランジュモデルフレームワークと多層引用グラフによる自動的な調査生成
SurveyG: A Multi-Agent LLM Framework with Hierarchical Citation Graph for Automated Survey Generation
大規模言語モデル(LLMs)は、調査文書の自動化生成に多くの採用がされている extcite{wang2406autosurvey, liang2025surveyx, yan2025surveyforge,su2025benchmarking,wen2025interactivesurvey}。現在の手法は、多くの関連論文からの内容を抽出し、直ちにLLMへと促すことが多いです。しかし、これらの方...
Original: arXiv:2510.07733v3 Announce Type: replace Abstract: Large language models (LLMs) are increasingly adopted for automating survey paper generation \cite{wang2406autosurvey, liang2025surveyx, yan2025sur...
LLMの欠点:少数のニューロンを変更することで言語能力を無力化する
The Achilles' Heel of LLMs: How Altering a Handful of Neurons Can Cripple Language Abilities
Large Language Models (LLMs)は、自然言語処理に本質的なツールとなっています。彼らをさまざまなアプリケーションや研究で使用しています。多くの研究によると、LLMsは人間の脳と大きな類似性があります。最近の neuroscience の研究では、人間の脳内生物的ニューロンの一過 subset が基本的な知能機能に関与していることがわかりました。これでは、LLMsも一過 cr...
Original: arXiv:2510.10238v2 Announce Type: replace Abstract: Large Language Models (LLMs) have become foundational tools in natural language processing, powering a wide range of applications and research. Man...
OpenPhone: Mobile Agentic Foundation 模型
OpenPhone: Mobile Agentic Foundation Models
多モードの大規模言語モデル(MLLMs)の発展に基づき、GUI アグレントシステムの作成は期待される新しい方向性になっています。特に、アプリエコシステムが豊富で、直感的なタッチイ / レーションを提供する移動機器プラットフォームがそうです。しかし、移動機器の GUI アグレントは重要な課題を抱えています:完全にデバイス内でのモデル(約4B以下のモデル)は十分な性能を発揮できず、能力のあるモデル(開...
Original: arXiv:2510.22009v2 Announce Type: replace Abstract: With the advancement of multimodal large language models (MLLMs), building GUI agent systems has become an increasingly promising direction--especi...
GUI知識基盤:VLMでのGUIタスクにおける知识ギャップの Revealing
GUI Knowledge Bench: Revealing the Knowledge Gap of VLMs in GUI Tasks
Vision言語モデル (VLMs) は先進的なグラフィカル・ユーザー・インターフェース (GUI) ツール オートメーションを達成していますが、それらはまだ人類を追い越えていません。我々はそのためのギャップというこれは主に、既存のトレーニングスキーム(例えば、 supervised fine tuning と reinforced learning)だけでは完璧には解決しないであろう、GUIでの...
Original: arXiv:2510.26098v2 Announce Type: replace Abstract: Vision language models (VLMs) have advanced graphical user interface (GUI) task automation but still lag behind humans. We hypothesize this gap ste...
並列パワースーツ検索:無利得ゲームなどでの適用
Massively Parallel Proof-Number Search for Impartial Games and Beyond
Proof-Number Searchは、多くの成功したアプリケーションを持つ最優先探索アルゴリズムです。特にビーゲームの解き方で成功を収めています。CPUコアが増加する大規模なコンピューティングクラスターやが増えているため、並列化は計算速度を高速にする自然な方法となっています。しかし、現在のProof-NumberSearchのほぼすべての並列バージョンは多くのCPUコアに対して拡張性に欠けます...
Original: arXiv:2511.10339v2 Announce Type: replace Abstract: Proof-Number Search is a best-first search algorithm with many successful applications, especially in game solving. As large-scale computing cluste...
AISAC:透明性を備えた多代理システムでの回復可能なセカンドランタイムと科学的な支援
AISAC: An Integrated multi-agent System for Transparent, Retrieval-Grounded Scientific Assistance
Original: arXiv:2511.14043v2 Announce Type: replace Abstract: AI Scientific Assistant Core (AISAC) is a transparent, modular multi-agent runtime developed at Argonne National Laboratory to support long-horizon...
HuggingR$^{4}$: ユーザーintentに基づくモデル選択のプロジギックな reasoning 機能
HuggingR$^{4}$: A Progressive Reasoning Framework for Discovering Optimal Model Companions
効果的な大規模言語処理モデル(LLM)の代理人を劾いたり開発したりするには、AIモジュールを選挙することからはじめることになります。それには適宜の開かれたレポーティョータイプ(例: HuggingFaceに200万を超えるエッジがあります)からの選択が必要です。APIツールのセットの定式での呼び出しと逆に、レポーターサイクルでモデル選択は大量で変化している候補を処理する必要があります。これには完全...
Original: arXiv:2511.18715v2 Announce Type: replace Abstract: Building effective LLM agents increasingly requires selecting appropriate AI models as tools from large open repositories (e.g., HuggingFace with >...
UNeMo:多モデルの視覚言語推理とナビゲーションを協働するコラボレーション世界モデル
UNeMo: Collaborative Visual-Language Reasoning and Navigation via a Multimodal World Model
VSN(Vision-and-Language Navigation)において、自主的に複雑な環境を視覚画像と自然言語指令で移動することは難しく、これにより現在は課題が存在しています。大規模言語モデル(LLM)を使用した言語ガイドのNVL(Navigation Reasoning の研究では、 promisingな期待されることが示されています。ただし、これらの方法の認識論理は主に言語モデルに限定...
Original: arXiv:2511.18845v2 Announce Type: replace Abstract: Vision-and-Language Navigation (VLN) requires agents to autonomously navigate complex environments via visual images and natural language instructi...
対話型非コーディネート、多専門組織疾患マジューラの病原解析と代替薬予測を支援するChatDRex
Conversational No-code, Multi-agentic Disease Module Identification and Drug Repurposing Prediction with ChatDRex
代替薬の利用は伝統的な薬開発に比較して時間短縮とコスト効果が期待できる。しかし,代替薬候補のイコールインフォームシオン推定は難しく、専門家の効率的な協力が必要となる。複雑な問題の大いなる方面に対する分割化された特殊なアルゴリズムやツールが殆ど対処しておらず,様々なデータが無秩序に存在することにより特に困難であるためである。したがって,専門的な利用者によって知識を提供されるこれらのデータサービスは各...
Original: arXiv:2511.21438v2 Announce Type: replace Abstract: Repurposing approved drugs offers a time-efficient and cost-effective alternative to traditional drug development. However, in silico prediction of...
決定的 POMDP の等価クラスのエージェント状態政策と高階の因果構造機能との対応
Agent policies from higher-order causal functions
我々は、決定的なPOMDP (部分モジュラ最適目的探索)について定義されたエージェント状態 パリティックの等価クラス間で、古典的定 deterministic quantum 機関操作の classical-deterministic 极限に対する一入力プロセス機能との対応を確立します。この対忡とを通じて、人工知能におけるエージェント環境の相互作用から物理学の基礎での causal structu...
Original: arXiv:2512.10937v2 Announce Type: replace Abstract: We establish a correspondence between equivalence classes of agent-state policies for deterministic POMDPs and one-input process functions (the cla...
LMの安全性を調整する:非協力ゲームを通じて
Safety Alignment of LMs via Non-cooperative Games
機械学習のalignmentで言語モデル(LM)の安全保障と有用性を維持することは大きな課題です。現在の手法は順行の敵意訓練に基づいています。敵意的なプロギプスを生成し、その対策をLMに微調整しています。一方、我々は異なるパラダイムを提案します。攻撃LMと守備LFMが共有された在線による再 reinforcement learningを通じて非ゼロ競合ゲームとして alignmentsafetyを...
Original: arXiv:2512.20806v2 Announce Type: replace Abstract: Ensuring the safety of language models (LMs) while maintaining their usefulness remains a critical challenge in AI alignment. Current approaches re...
VirtualEnv: エンボディードAI研究のプラットフォーム
VirtualEnv: A Platform for Embodied AI Research
大型の言語モデル (LLMs) の論理性と決定能力が改善され続けている中で、彼らの能力を細かく試すための現実的なそして交互可能な環境の必要性がますます高まっています。 Unreal Engine 5 を基盤とする VirtualEnv を提供して、LLM のこれらの能力を厳密に評価できる新たな世代のシミュレーションプラットフォームは存在します。VirtualEnv では、物理的なオブジェクト操作、...
Original: arXiv:2601.07553v2 Announce Type: replace Abstract: As large language models (LLMs) continue to improve in reasoning and decision-making, there is a growing need for realistic and interactive environ...
Imandra CodeLogician: 精度の高いソフトウェアログリックの解析用のニューロシンボリック代理店
Imandra CodeLogician: Neuro-Symbolic Reasoning for Precise Analysis of Software Logic
多くの言語モデル (LLMs) はコード理解タスクで高性能を示しましたが、完全な正の数学的な論理についてプログラム動作を精確に理解する能力を実質的に欠しています。現存するベンチマークは主に形式的証明自動化に焦点を当てている一方で、現実世界のソフトウェアやサブセマンティック厳格さに必要ないエンジニアリングタスクに対して集中しています。
Original: arXiv:2601.11840v2 Announce Type: replace Abstract: Large Language Models (LLMs) have shown strong performance on code understanding tasks, yet they fundamentally lack the ability to perform precise,...
OpenSec: アドバシ証拠条件下のセキュリティ中断対応エージェントの校正評価
OpenSec: Measuring Incident Response Agent Calibration Under Adversarial Evidence
大量の言語モデル(LLMs)が向上しているように、彼らの攻撃的なアプリケーションもますます精度を高めていきます。これにより、フロンティアエージェントは100ドル未満で有効な攻撃性ある攻撃を作成しています(Heelan, 2026)。セキュリティ中断対応(IR)エージェントは、防御的な立場を維持するためにも進化の一途を辿るべきです。しかし現行のバッキングは、実際には動的処理にフォーカスした行動と正し...
Original: arXiv:2601.21083v3 Announce Type: replace Abstract: As large language models (LLMs) improve, so do their offensive applications: frontier agents now generate working exploits for under $50 in compute...
TIDE: Large Language Modelに基づく自適応ヒューリスティックス設計用の調整統合ダイナミック進化フレームワーク
TIDE: Tuning-Integrated Dynamic Evolution for LLM-Based Automated Heuristic Design
抽象的な文章は、大規模言語モデル(Large Language Models, LLM)が自動化された仮説設計に進歩を遂げていることを示しています。しかし、アルゴリズムの進化を単一のテキスト生成タスクとして扱うのは、離散的なアルゴリズム構造と連続的な数値パラメータ間の_coupling が見落されています。それゆえ、既存の手法はしばしば未調整の定數量を理由に有用なアルゴリズムを排除し、単純な類似度...
Original: arXiv:2601.21239v2 Announce Type: replace Abstract: Although Large Language Models have advanced Automated Heuristic Design, treating algorithm evolution as a monolithic text generation task overlook...