3496 articles
SkillLearnBench: 実世界タスクにおけるアジレントースキルの生成に焦点を当てた継続学習方法のベンチマーク評価
SkillLearnBench: Benchmarking Continual Learning Methods for Agent Skill Generation on Real-World Tasks
arXiv:2604.20087v1 Announce Type: cross 要旨:スキルは、LLM(大規模言語モデル)エージェントがカスタム指示、ワークフロー、およびツールを使用して複雑な現実世界のタスクを遂行するために事実上の手段となっていますが、どのように自動的にかつ効果的にそれを学習できるかが不明確です。私たちは、20 個の検証済みスキル依存タスク(実世界のスキル分類法から派生した 15...
Original: arXiv:2604.20087v1 Announce Type: cross Abstract: Skills have become the de facto way to enable LLM agents to perform complex real-world tasks with customized instructions, workflows, and tools, but ...
Rubric に基づく自己対戦による事前トレーニングテキストから、開かれたタスクのためのトレーニング後シグナルの起動
Bootstrapping Post-training Signals for Open-ended Tasks via Rubric-based Self-play on Pre-training Text
arXiv:2604.20051v1 Announce Type: cross 要旨: 自己対戦は、最近、大型言語モデル (LLM) をトレーニングするための有望なパラダイムとして台頭しています。自己対戦では、目標 LLM はタスクの入力 (例:質問を提示) を生成し、それを解決するために自身でタスクの出力 (例:回答を提供) を生成します。報酬モデルが出力を評価し、その報酬が通常強化学習 (RL...
Original: arXiv:2604.20051v1 Announce Type: cross Abstract: Self-play has recently emerged as a promising paradigm to train Large Language Models (LLMs). In self-play, the target LLM creates the task input (e....
因果推論のための可分経路:ア키탢テクチャルな骨格化が LLM エージェントの仮説空間再構成を促進する方法
Separable Pathways for Causal Reasoning: How Architectural Scaffolding Enables Hypothesis-Space Restructuring in LLM Agents
arXiv:2604.20039v1 Announce Type: cross 要旨:実験と介入を介した因果発見は、頑健な問題解決において基本的な役割を果たしています。これは、固定されたフレームワーク内の信念を更新することだけでなく、仮説空間そのものを改めることを必要とし、現時点の AI エージェントは、証拠が以前構築したままの表現を必要としている状況において、この能力を欠いています。私たちは、開...
Original: arXiv:2604.20039v1 Announce Type: cross Abstract: Causal discovery through experimentation and intervention is fundamental to robust problem solving. It requires not just updating beliefs within a fi...
heterogeneous objectives と constraints 下における Decision-Focused Federated Learning
Decision-Focused Federated Learning Under Heterogeneous Objectives and Constraints
arXiv:2604.20031v1 Announce Type: cross Abstract 私たちが DFFL と呼ぶフレームワークについて考察します。つまり、複数のエージェントの集合が使用する予測から最適化を行うアプローチであり、各エージェントの予測モデルが下流の線形最適化問題の入力となりますが、生データの直接交換は許可されません。特に、クライアントは目的関数と実現可能性の両方で異なる場合...
Original: arXiv:2604.20031v1 Announce Type: cross Abstract: We consider what we refer to as {Decision-Focused Federated Learning (DFFL)} framework, i.e., a predict-then-optimize approach employed by a collecti...
scpFormer:単一細胞プロテオミクスの統一表現と統合のための基礎モデル
scpFormer: A Foundation Model for Unified Representation and Integration of the Single-Cell Proteomics
arXiv:2604.20003v1 Announce Type: cross Abstract: 単一細胞プロテオミクデータの統合は、標的抗体パネルの断片的な性質によってしばしば妨げられます。この課題に対処するため、私たちは単一細胞プロテオミクスを想定して設計されたトランスフォーマーベースの基礎モデルである scpFormer を紹介しました。3 億 9,000 万細胞以上のデータで事前学習され...
Original: arXiv:2604.20003v1 Announce Type: cross Abstract: The integration of single-cell proteomic data is often hindered by the fragmented nature of targeted antibody panels. To address this limitation, we ...
効率的な複素数値不確実性推定のためのアルゴリズムとハードウェアの共同設計
Algorithm and Hardware Co-Design for Efficient Complex-Valued Uncertainty Estimation
arXiv:2604.19993v1 Announce Type: cross Abstract: 複素数値ニューラルネットワーク (CVNN) は複素数を含むタスクの処理において顕著な利点を有していますが、既存の CVNN は予測の不確実性を定量することはできません。我々は初めて、ドロップアウトベースのベイズ複素数値ニューラルネットワーク (BayesCVNNs) を提案し、複素数値アプリケーシ...
Original: arXiv:2604.19993v1 Announce Type: cross Abstract: Complex-Valued Neural Networks (CVNNs) have significant advantages in handling tasks that involve complex numbers. However, existing CVNNs are unable...
DistortBench: 画像変形識別におけるビジョン言語モデルのベンチマーク
DistortBench: Benchmarking Vision Language Models on Image Distortion Identification
arXiv:2604.19966v1 Announce Type: cross 摘要:ビジョン言語モデル(VLM)は、低レベルの画像劣化への感受性が重要となるコンテンツモデレーション、画像回復、品質モニタリングなどの分野でますます広く利用されています。しかし、変形の種類と重症度の認識能力はあまり理解されていません。私たちは、VLM の参照なしの変形感知を診断するためのベンチマークである Disto...
Original: arXiv:2604.19966v1 Announce Type: cross Abstract: Vision-language models (VLMs) are increasingly used in settings where sensitivity to low-level image degradations matters, including content moderati...
MMCORE: モーダル間接続を可能にする表現一致ラテンテンベッディング
MMCORE: MultiModal COnnection with Representation Aligned Latent Embeddings
arXiv:2604.19902v1 発表タイプ:クロス Abstract:我々は、マルチモーダル画像生成と編集のために設計された統合的なフレームワークである MMCORE を提示します。MMCORE は、事前学習されたビジョン言語モデル (VLM) を活用し、学習可能なクエリトークンを用いてセマンティックな視覚エンベッディングを予測します。これらが条件付け信号として拡散モデルに利用されることで、...
Original: arXiv:2604.19902v1 Announce Type: cross Abstract: We present MMCORE, a unified framework designed for multimodal image generation and editing. MMCORE leverages a pre-trained Vision-Language Model (VL...
Signal Degradation から Computation Collapse へ:LLM 定量化のパラメータ 2 つの破綻モードを明らかにする
From Signal Degradation to Computation Collapse: Uncovering the Two Failure Modes of LLM Quantization
arXiv:2604.19884v1 Announce Type: cross 摘要:トレーニング後定量化(PTQ)は、大型言語モデル(LLM)の効率的な展開において極めて重要です。4 ブイト定量化は広く最適なトレードオフと見なされていますが、精度を 2 ブイトに下げることは、通常、劇的な「パフォーマンス崖」を引き起こします。背後にあるメカニズムが根本的に異なるのかどうかはまだ不明です。したがって...
Original: arXiv:2604.19884v1 Announce Type: cross Abstract: Post-Training Quantization (PTQ) is critical for the efficient deployment of Large Language Models (LLMs). While 4-bit quantization is widely regarde...
ChipCraftBrain: 多エージェントオーケストレーションを活用した検証第一の RTL 生成
ChipCraftBrain: Validation-First RTL Generation via Multi-Agent Orchestration
arXiv:2604.19856v1 Announce Type: cross 要旨:大規模言語モデル(LLM)は、自然言語仕様に基づいて登録転送レベル(RTL)コードを生成する可能性を示していますが、ワンショット生成では標準ベンチマークにおいて機能正確性が 60-65% と低く留まります。MAGE などのマルチエージェントアプローチは VerilogEval で 95.9% まで到達していますが...
Original: arXiv:2604.19856v1 Announce Type: cross Abstract: Large Language Models (LLMs) show promise for generating Register-Transfer Level (RTL) code from natural language specifications, but single-shot gen...
細菌モデルが優れたレゾーバーコンピューターとなる要因は何か:可分離性と類似性に基づく性能予測
What Makes a Bacterial Model a Good Reservoir Computer? Predicting Performance from Separability and Similarity
arXiv:2604.19850v1 Announce Type: cross Abstract: 生物システムは、複雑な内部動態を通じて環境情報を自然に処理するため、計算の基盤として有望です。本研究では、細菌代謝モデルが物理的なレゾーバーとして機能し、その計算性能が可分離性と類似性に連動した動的性質から予測できるかどうかを検討しました。5 種の細菌、1 種の酵母、そして 29 株の E. col...
Original: arXiv:2604.19850v1 Announce Type: cross Abstract: Biological systems are promising substrates for computation because they naturally process environmental information through complex internal dynamic...
IceCube を用いた球面上の中性子子方向のニューラル後方推定:トランスフォーマーエンコードした正規化フローズを用いた手法
Neural posterior estimation of the neutrino direction in IceCube using transformer-encoded normalizing flows on the sphere
arXiv:2604.19846v1 Announce Type: cross Abstract: IceCube は地理的南極に位置する、立方キロメートル規模の中性子子検出器です。 IceCube の中性子子からの正確な方向性再構築は、天文観測対象との関連付けにとって不可欠です。本研究では、2 球面上の正規化フローズにマッピングするトランスフォーマーエンコーダーを用いた中性子子方向のニューラル後...
Original: arXiv:2604.19846v1 Announce Type: cross Abstract: IceCube is a cubic-kilometer-scale neutrino detector located at the geographic South Pole. A precise directional reconstruction of IceCube neutrinos ...
EV 充電需要量の時空間モデリング
Spatio-temporal modelling of electric vehicle charging demand
arXiv:2604.19841v1 Announce Type: cross 要約: 電気自動車(EV)充電需要量の正確な予測は、グリッド管理及びインフラ計画にとって不可欠である。しかし、該 field はまだ、Palo Alto (2020) データセットなど、現代的な充電ネットワークの規模や行動の多様性を反映していない古いベンチマークに依存している。これに対応するため、私たちはスコットランド...
Original: arXiv:2604.19841v1 Announce Type: cross Abstract: Accurate forecasting of electric vehicle (EV) charging demand is critical for grid management and infrastructure planning. Yet the field continues to...
ノイズ付き intermediate-scale クوانタム・コンピュータにおけるオプション評価:クワンタム・ニューラル・ネットワークのアプローチ
Option Pricing on Noisy Intermediate-Scale Quantum Computers: A Quantum Neural Network Approach
arXiv:2604.19832v1 Announce Type: cross 摘要:名义総額が数千兆ドル規模に達するグローバルなデリバティブ市場において、価格評価モデルの精度と効率性は、リスク管理、資本配分、および規制準拠において決定的な重要性を備えている。本稿では、ブラック・ショールズ・モーツァルト(BSM)の枠組みを目的そのものではなく、クワンタム・マシーン・ラーニング手法の能力を厳密に評価...
Original: arXiv:2604.19832v1 Announce Type: cross Abstract: In a global derivatives market with notional values in the hundreds of trillions of dollars, the accuracy and efficiency of pricing models are of fun...
同位置テスト:より優れた AI コード生成。テスト構文が基礎モデルのコード生成にどう影響するか
Co-Located Tests, Better AI Code: How Test Syntax Structure Affects Foundation Model Code Generation
arXiv:2604.19826v1 Announce Type: cross Abstract: AI コーディングアシスタントは、コード生成とともにテストも生成するようになっています。開発者がテストコードをどのように構造化するか、実装と同じライン内にするか、それとも別ブロックにするか、は伝統的にテスト哲学の問題でしたが、本研究ではこの選択が AI コード生成の品質にどのような影響を与えるかを...
Original: arXiv:2604.19826v1 Announce Type: cross Abstract: AI coding assistants increasingly generate code alongside tests. How developers structure test code, whether inline with the implementation or in sep...
データ不足環境における狂犬病の診断:データ拡張と転移学習の影響に関する比較研究
Rabies diagnosis in low-data settings: A comparative study on the impact of data augmentation and transfer learning
arXiv:2604.19823v1 Announce Type: cross 摘要:狂犬病は、正確な診断を有効な疫学監視に不可欠とする、アフリカおよびアジアの多くの国々における重要な公衆衛生上の問題です。金標準の診断手法は蛍光顕微鏡に大きく依存しており、結果を正確に解釈するための専門的な実験室人員のニーズが高まっています。この専門性は、特に年間サンプル数が少ない地域では不足していることが多いで...
Original: arXiv:2604.19823v1 Announce Type: cross Abstract: Rabies remains a major public health concern across many African and Asian countries, where accurate diagnosis is critical for effective epidemiologi...
MIRROR: 大規模言語モデルにおけるメタ認知の定式化のための階層的ベンチマーク
MIRROR: A Hierarchical Benchmark for Metacognitive Calibration in Large Language Models
arXiv:2604.19809v1 発表型: 横断 抜粋: 私たち、自己認識を用いてより良い意思決定を行えるか評価するため、4 つのメタ認知レベルにわたる 8 つの実験からなるベンチマーク「MIRROR」を導入します。8 つのラボから選ばれた 16 モデルを、約 250,000 の評価インスタンスを介する 5 つの独立した行動計測チャネルを用いて評価しました。コア実験はモデルのフルセットにおいて...
Original: arXiv:2604.19809v1 Announce Type: cross Abstract: We introduce MIRROR, a benchmark comprising eight experiments across four metacognitive levels that evaluates whether large language models can use s...
分子ポテンシャル場を最小限の時間情報で向上させる
Improving Molecular Force Fields with Minimal Temporal Information
arXiv:2604.19806v1 Announce Type: cross Abstract:3 次元分子系に対するエネルギーと力への正確な予測は、AI for Science 応用の核心的な基本的課題の一人です。強力でありデータ効率性の高いニューラルネットワークは、単一の原子配置から分子エネルギーと力を予測します。しかし、これらのモデルを学習する際、データ生成過程の重要な側面である分子動的シ...
Original: arXiv:2604.19806v1 Announce Type: cross Abstract: Accurate prediction of energy and forces for 3D molecular systems is one of fundamental challenges at the core of AI for Science applications. Many p...
SkillGraph: LLM エージェントのツールシーケンス推薦のためのグラフ基礎優先知識
SkillGraph: Graph Foundation Priors for LLM Agent Tool Sequence Recommendation
arXiv:2604.19793v1 Announce Type: cross 抽象文: LLM エージェントは、大規模な API ライブラリーからツールを選択し、正しく順序付けなければなりません。既存の手法は、検索と順序付けの両方に半義類似性を利用していますが、順序付けはツール記述から欠如しているツール間のデータ依存性に依存します。その結果、半義だけの手法は構造化されたワークフロードメインにおい...
Original: arXiv:2604.19793v1 Announce Type: cross Abstract: LLM agents must select tools from large API libraries and order them correctly. Existing methods use semantic similarity for both retrieval and order...
大規模言語モデルにおける潜在的な信頼性リスク:精度誘発的な出力不一致の体系的同定
Hidden Reliability Risks in Large Language Models: Systematic Identification of Precision-Induced Output Disagreements
arXiv:2604.19790v1 Announce Type: cross 要約: 大規模言語モデル (LLMs) は、効率的性とリソース制約を満たすために、標準浮動小数点形式 (例:bfloat16、float16) やクエンタIZED 整数形式 (例:int16、int8) を含む多様な数値精度設定の下で広く展開されています。しかし、異なる精度の LLM 間の微小な不一致は検出するのが困...
Original: arXiv:2604.19790v1 Announce Type: cross Abstract: Large language models (LLMs) are increasingly deployed under diverse numerical precision configurations, including standard floating-point formats (e...