3496 articles

SkillLearnBench: 実世界タスクにおけるアジレントースキルの生成に焦点を当てた継続学習方法のベンチマーク評価

SkillLearnBench: Benchmarking Continual Learning Methods for Agent Skill Generation on Real-World Tasks

arXiv:2604.20087v1 Announce Type: cross 要旨：スキルは、LLM（大規模言語モデル）エージェントがカスタム指示、ワークフロー、およびツールを使用して複雑な現実世界のタスクを遂行するために事実上の手段となっていますが、どのように自動的にかつ効果的にそれを学習できるかが不明確です。私たちは、20 個の検証済みスキル依存タスク（実世界のスキル分類法から派生した 15...

Original: arXiv:2604.20087v1 Announce Type: cross Abstract: Skills have become the de facto way to enable LLM agents to perform complex real-world tasks with customized instructions, workflows, and tools, but ...

SkillLearnBench: 実世界タスクにおけるアジレントースキルの生成に焦点を当てた継続学習方法のベンチマーク評価

Rubric に基づく自己対戦による事前トレーニングテキストから、開かれたタスクのためのトレーニング後シグナルの起動

因果推論のための可分経路：ア키탢テクチャルな骨格化が LLM エージェントの仮説空間再構成を促進する方法

heterogeneous objectives と constraints 下における Decision-Focused Federated Learning

scpFormer：単一細胞プロテオミクスの統一表現と統合のための基礎モデル

効率的な複素数値不確実性推定のためのアルゴリズムとハードウェアの共同設計

DistortBench: 画像変形識別におけるビジョン言語モデルのベンチマーク

MMCORE: モーダル間接続を可能にする表現一致ラテンテンベッディング

Signal Degradation から Computation Collapse へ：LLM 定量化のパラメータ 2 つの破綻モードを明らかにする

ChipCraftBrain: 多エージェントオーケストレーションを活用した検証第一の RTL 生成

細菌モデルが優れたレゾーバーコンピューターとなる要因は何か：可分離性と類似性に基づく性能予測

IceCube を用いた球面上の中性子子方向のニューラル後方推定：トランスフォーマーエンコードした正規化フローズを用いた手法

EV 充電需要量の時空間モデリング

ノイズ付き intermediate-scale クوانタム・コンピュータにおけるオプション評価：クワンタム・ニューラル・ネットワークのアプローチ

同位置テスト：より優れた AI コード生成。テスト構文が基礎モデルのコード生成にどう影響するか

データ不足環境における狂犬病の診断：データ拡張と転移学習の影響に関する比較研究

MIRROR: 大規模言語モデルにおけるメタ認知の定式化のための階層的ベンチマーク

分子ポテンシャル場を最小限の時間情報で向上させる

SkillGraph: LLM エージェントのツールシーケンス推薦のためのグラフ基礎優先知識

大規模言語モデルにおける潜在的な信頼性リスク：精度誘発的な出力不一致の体系的同定