3496 articles
AutoFed: 適応提示によるパーソナライズされたフェデレーテッド交通予測
AutoFed: Personalized Federated Traffic Prediction via Adaptive Prompt
arXiv:2512.24625v2 発表型:置き換え 摘要: 正確な交通予測は、ライドシェア、都市道路計画、車両fleet管理等知能交通システム (ITS) に不可欠です。しかし、交通データに関する深刻なプライバシー懸念により、既存の多くの手法はローカルトレーニングに依存しており、これがデータの隔離と限られた知識共有を招いています。フェデレーテッドラーニング (FL) は、プライバシー保護協調ト...
Original: arXiv:2512.24625v2 Announce Type: replace Abstract: Accurate traffic prediction is essential for Intelligent Transportation Systems, including ride-hailing, urban road planning, and vehicle fleet man...
動的ツール依存関係検索による軽量関数呼び出し(arXiv:2512.17052v4)
Dynamic Tool Dependency Retrieval for Lightweight Function Calling
Large Language Models (LLMs) による機能呼び出しエージェントは、複雑なタスクを自動化するために外部ツールを選択します。オンデバイスエージェントは、通常、関連するツールを選択する検索モジュールを使用して性能を向上させ、コンテキスト長を削減しています。しかし、既存の検索方法は静的かつ限定的な入力に依存しており、複数ステップのツール依存関係や進化するタスクの文脈を捉え切れませ...
Original: arXiv:2512.17052v4 Announce Type: replace Abstract: Function calling agents powered by Large Language Models (LLMs) select external tools to automate complex tasks. On-device agents typically use a r...
Training-Free Confidence-Aware Calibration を用いた Diffusion ベースの大型言語モデルの透過率向上
Improving the Throughput of Diffusion-based Large Language Models via a Training-Free Confidence-Aware Calibration
arXiv:2512.07173v4 Announce Type: replace Abstract: 私々は、Diffusion ベースの LLM(dLLM)の推論透過率を加速するための学習なし(training-free)手法である CadLLM を提唱します。まず、トークンアンマスティングの信頼度がブロックとステップの間どのように動的に変化するかを調査しました。この観察に基づき、アンマスティ...
Original: arXiv:2512.07173v4 Announce Type: replace Abstract: We present CadLLM, a training-free method to accelerate the inference throughput of diffusion-based LLMs (dLLMs). We first investigate the dynamic ...
OXtal: オルガニック結晶構造予測のための全原子拡散モデル
OXtal: An All-Atom Diffusion Model for Organic Crystal Structure Prediction
arXiv:2512.06987v2 発表タイプ:置換 本文:実験的に実現可能な 3 次元分子結晶構造を 2 次元化学構造から正確に予測することは、結晶構造予測 (Crystal Structure Prediction, CSP) と呼ばれる計算化学の長年の未解決課題です。この問題の効率的な解決は、医薬品から有機半導体まで、有機固体の物性と化学的性質を直接的に支配する結晶のパッキング構造にわたる...
Original: arXiv:2512.06987v2 Announce Type: replace Abstract: Accurately predicting experimentally realizable 3D molecular crystal structures from their 2D chemical graphs is a long-standing open challenge in ...
Mechanistic Explainability への機械的学習:MechSMILES による言語モデルへの教授
Teaching Language Models Mechanistic Explainability Through MechSMILES
arXiv:2512.05722v2 Announce Type: replace 要約:化学反応の機構は、化学家が反応性や実現性を評価するための基盤でありながら、現在のコンピュータ支援合成計画(CASP)システムはこの機械的推論を行わずに動作している。本稿では、矢印推しという、質量と電荷の保存則を強固にした電子流を追跡する世紀前の記号体系を通じて、言語モデルが反応機構を予測するよう教える計算枠組...
Original: arXiv:2512.05722v2 Announce Type: replace Abstract: Chemical reaction mechanisms are the foundation of how chemists evaluate reactivity and feasibility, yet current Computer-Assisted Synthesis Planni...
可逆問題における LLM の幻覚と欠落を防ぐ方法:ハードウェアロジック設計自動化への応用
Mitigating hallucinations and omissions in LLMs for invertible problems: An application to hardware logic design automation
arXiv:2512.03053v2 発表タイプ:置換 摘要:我々は、ソースドメイン(例:ロジック条件表 (LCT))から宛先ドメイン(例:ハードウェア記述言語 (HDL) コード)へデータを変換する可逆な問題において、大規模言語モデル (LLM) を情報理論の損失圧縮に類似する、ソースから宛先へ lossless エンコーダーとして使用し、その後ソースに戻る lossless デコーダーとして使...
Original: arXiv:2512.03053v2 Announce Type: replace Abstract: We show for invertible problems that transform data from a source domain (for example, Logic Condition Tables (LCTs)) to a destination domain (for ...
In-Context Distillation with Self-Consistency Cascades: A Simple, Training-Free Way to Reduce LLM Agent Costs
arXiv:2512.02543v2 Announce Type: replace 要大量部署 LLM(Large Language Model)エージェント時、品質とコストのトレードオフをどう選ぶかが課題となる。既存のコスト削減手法は、人的時間のボトルネックを持たずに迅速な反復可能なアジリティ(Agility)を維持できないという欠点がある。プロンプトエンジニアリングは脆く反復が遅くなる一方、フ...
Original: arXiv:2512.02543v2 Announce Type: replace Abstract: Deploying LLM agents at scale typically requires choosing between quality and cost. Existing cost-reduction approaches fail to preserve agility: th...
The Reasoning Trap: How Enhancing LLM Reasoning Amplifies Tool Hallucination
arXiv:2510.22977v2 Announce Type: replace 摘要:大型言語モデル(LLM)の論理推理能力を向上させることは、「考えから行動する」Agents を構築するための重要な戦略です。しかし、OpenAI の o3 などの最近の観察は、より強力な推理がより多くの幻觉( hallucination)と一致するというパラドックスを示唆しています。ただし、それまでに論理推...
Original: arXiv:2510.22977v2 Announce Type: replace Abstract: Enhancing the reasoning capabilities of Large Language Models (LLMs) is a key strategy for building Agents that "think then act." However, recent o...
解釈可能なリスク評価のためのスコア・閾値の最適化(arXiv:2510.21934v3 Announce Type: replace)
Joint Score-Threshold Optimization for Interpretable Risk Assessment
医療におけるリスク評価ツールは、閾値を介して患者を順序付きリスクカテゴリにマッピングするポイントベースのスコアリングシステムを常用しています。電子健康記録(EHR)データはこれらのツールのデータ主導型最適化の機会を提供しますが、標準的なシミュレーション学習には二つの根本的な課題が存在します:(1)介入によって遮断された結果のため、ラベルは極端なリスクカテゴリでのみ利用可能な場合が多いこと、および(...
Original: arXiv:2510.21934v3 Announce Type: replace Abstract: Risk assessment tools in healthcare commonly employ point-based scoring systems that map patients to ordinal risk categories via thresholds. While ...
Differentially Private Deep Transfer Learning の最適ハイパーパラメータについて
On Optimal Hyperparameters for Differentially Private Deep Transfer Learning
arXiv:2510.20616v2 Announce Type: replace 摘要:差分プライバシー (DP) トランズファラーラーニング(プライベートデータにプリトレーニング済みモデルを微調整する手法)は、プライバシー制約下で大規模モデルをトレーニングするための現在の最先端アプローチです。本稿では、この設定における 2 つの主要なハイパーパラメータであるクリッピングバウンド $C$ とバッ...
Original: arXiv:2510.20616v2 Announce Type: replace Abstract: Differentially private (DP) transfer learning, i.e., fine-tuning a pretrained model on private data, is the current state-of-the-art approach for t...
DB-FGA-Net:マルチクラス脳腫瘍分類および Grad-CAM 解釈可能性を備えた二重バックボン Frequent-Gated Attention ネットワーク
DB-FGA-Net: Dual Backbone Frequency Gated Attention Network for Multi-Class Brain Tumor Classification with Grad-CAM Interpretability
arXiv:2510.20299v3 Announce Type: replace 要約:脳腫瘍は神経外科学において重要な早期かつ正確な診断が成功した治療のために不可欠ですが、この分野では依然として大きな課題です。ディープラーニングベースの脳腫瘍分類法では、通常大量のデータアウグメンテーションに依存しており、これが一般化性能と臨床応用における信頼性を制限する傾向があります。本稿では、補完的な局所...
Original: arXiv:2510.20299v3 Announce Type: replace Abstract: Brain tumors are a challenging problem in neuro-oncology, where early and precise diagnosis is important for successful treatment. Deep learning-ba...
エントロピー正則化の再考: アダプティブ係数が LLM の強化学習に可能性を unlocked
Revisiting Entropy Regularization: Adaptive Coefficient Unlocks Its Potential for LLM Reinforcement Learning
arXiv:2510.10959v3 Announce Type: replace 摘要:推論能力は大型言語モデル(LLM)の定義的な能力となり、検証可能な報酬に基づく強化学習(RLVR)はそれを強化する主要なパラダイムとなっています。しかし、RLVR のトレーニングは、ポリシーが過剰に決定論的になり探索が阻害され、推論性能が制限される「ポリシーエントロピー崩壊」という課題に直面することがありま...
Original: arXiv:2510.10959v3 Announce Type: replace Abstract: Reasoning ability has become a defining capability of Large Language Models (LLMs), with Reinforcement Learning with Verifiable Rewards (RLVR) emer...
COMPASS: LLM エージェントにおける制約最適化ベンチマーキング
COMPASS: Benchmarking Constrained Optimization in LLM Agents
arXiv:2510.07043v2 Announce Type: replace 要旨:人間の意思決定にはしばしば制約付き最適化が含まれます。LLM エージェントが旅行計画、購買、スケジュール作成などの現実世界のタスクを支援するために展開されるにつれて、これらの能力を模倣することが求められます。COMPASS とは、LLM エージェントが現実的な旅行計画のセットアップで制約付き最適化を実行でき...
Original: arXiv:2510.07043v2 Announce Type: replace Abstract: Human decision-making often involves constrained optimization. As LLM agents are deployed to assist with real-world tasks like travel planning, sho...
Truncated Kernel Stochastic Gradient Descent with General Losses and Spherical Radial Basis Functions
arXiv:2510.04237v5 発表タイプ:置換 要約: この論文では、一般的な損失関数を扱う大規模な監視学習向けの新しい核随机勾配降下(SGD)アルゴリズムを提案します。従来の核 SGD に compared して、我々のアルゴリズムは画期的な正則化戦略を通じて効率性とスケーラビリティを向上させています。球状 Radial Basis Function の無限級数展開を利用することで、この...
Original: arXiv:2510.04237v5 Announce Type: replace Abstract: In this paper, we propose a novel kernel stochastic gradient descent (SGD) algorithm for large-scale supervised learning with general losses. Compa...
LLM の強化学習後訓練におけるスケーリング挙動:数学推論における経験的研究
Scaling Behaviors of LLM Reinforcement Learning Post-Training: An Empirical Study in Mathematical Reasoning
arXiv:2509.25300v4 Announce Type: replace 要旨:大規模言語モデル(LLM)の前訓練におけるスケーリング法則について多くの研究がなされており、しかし、訓練後の強化学習(RL)下におけるその挙動はほとんど未研究である。本稿は、強化学習ベースの後訓練におけるスケーリング挙動を系統的に経験的に調査し、特に数学的推論に焦点を当てたものである。Qwen2.5 密度モデ...
Original: arXiv:2509.25300v4 Announce Type: replace Abstract: While scaling laws for large language models (LLMs) during pre-training have been extensively studied, their behavior under reinforcement learning ...
マルチ目的強化学習によるフェノタイプ・ターゲット間のギャップの架け橋: モレキュラー生成のために
Bridging the phenotype-target gap for molecular generation via multi-objective reinforcement learning
arXiv:2509.21010v2 Announce Type: replace 摘要:薬理活性を持つ分子を、de novo で生成することが望ましいフェノタイプ変化を引き起こす能力において、ますます注目されています。ただし、過去の手法は主に発現プロファイルに基づいて分子生成を案内しており、分子が生きた細胞環境に及ぼす摂動効果を無視しています。この限界を克服するために、潜在変数 autoenco...
Original: arXiv:2509.21010v2 Announce Type: replace Abstract: The de novo generation of drug-like molecules capable of inducing desirable phenotypic changes is receiving increasing attention. However, previous...
Online Distributionally Robust LLM Alignment via Regression to Relative Reward
arXiv:2509.19104v2 Announce Type: replace 要約:Human Feedback を活用した強化学習(RLHF)は、大規模言語モデル(LLM)が人間の意図に沿うように調整するために不可欠なものとなっています。しかし、既存のオフライン RLHF アプローチは、過学習によって精度が低下し、トレーニング中に観察された推奨される振る舞いから外れることで、過最適化の弊...
Original: arXiv:2509.19104v2 Announce Type: replace Abstract: Reinforcement Learning with Human Feedback (RLHF) has become crucial for aligning Large Language Models (LLMs) with human intent. However, existing...
科学出版活動とハイプ駆動金融バブルの関係性を探る:ドット・コム世代と AI 時代の比較
Examining the Relationship between Scientific Publishing Activity and Hype-Driven Financial Bubbles: A Comparison of the Dot-Com and AI Eras
arXiv:2509.11982v2 Announce Type: replace 摘要:金融バブルはほとんど警報なく到来することが多いが、長期的な経済効果をもたらす。例えば、ドット・コムバブル期には、期待された明るい未来に対する情熱によって革新的技術が市場の混乱を招いた。これらの技術は、市場参入の数年前に科学者が開発のために研究してきたものであった。これは、バブルが発生する直前の科学出版データ...
Original: arXiv:2509.11982v2 Announce Type: replace Abstract: Financial bubbles often arrive without much warning, but create long-lasting economic effects. For example, during the dot-com bubble, innovative t...
自己整合報酬: 効率的かつ効果的な推論器への道
Self-Aligned Reward: Towards Effective and Efficient Reasoners
arXiv:2509.05489v2 発表タイプ: 更新 要旨:検証可能な報酬を持つ強化学習は、大規模言語モデル(LLM)の推論を顕著に進歩させましたが、これらのシグナルは依然として粗く、二進値の正しさのフィードバックしか提供していません。この限界は、冗長な推論や高い計算コストなどの非効率性をもたらすとともに、既存の解決策はしばしば精度を犠牲にしてしまいます。これを解決するために、我々は検証可能な...
Original: arXiv:2509.05489v2 Announce Type: replace Abstract: Reinforcement learning with verifiable rewards has significantly advanced reasoning in large language models (LLMs), but such signals remain coarse...
探索への偏りを取り解く:線形バンディットを用いた推奨オフライン評価における「利用を優先すること」の解明
Exploitation Over Exploration: Unmasking the Bias in Linear Bandit Recommender Offline Evaluation
arXiv:2507.18756v2 Announce Type: replace 摘要:複数アームバンディット(MAB)アルゴリズムは、連続的な逐次学習が必要な推奨システムで広く使用されています。MAB の核心的な側面は、既知の高い期待値のアイテムを利用するか、新しい情報を収集するために関知のアイテムを探索するかという「利用・探索のトレードオフ」です。コンテクスト線形バンディットの多くは同一の...
Original: arXiv:2507.18756v2 Announce Type: replace Abstract: Multi-Armed Bandit (MAB) algorithms are widely used in recommender systems that require continuous, incremental learning. A core aspect of MABs is ...