3496 articles
HiPreNets: 漸次的反式学習による高精度ニューラルネットワーク
HiPreNets: High-Precision Neural Networks through Progressive Training
arXiv:2506.15064v3 Announce Type: replace 摘要:深層ニューラルネットワークは科学・工学における非線形問題を解く強力なツールですが、問題の複雑性が上がるほど高精度なモデルの訓練が困難になります。非凸最適化とハイパーパラメータに対する感受性により、一貫性のある性能向上は難しく、従来のアプローチは平均二乗誤差の最小化に重点を置いており、安全応用において決定的な...
Original: arXiv:2506.15064v3 Announce Type: replace Abstract: Deep neural networks are powerful tools for solving nonlinear problems in science and engineering, but training highly accurate models becomes chal...
PyLO: PyTorch におけるアクセシブルな学習済み最適化器へのアプローチ
PyLO: Towards Accessible Learned Optimizers in PyTorch
arXiv:2506.10315v3 発表タイプ:置換 要旨:学習済み最適化器は過去 10 年間で活発に研究が進み、Adam に代わる汎用的な実用的な最適化器としての役割を果たすよう進歩してきた。しかし、最近の進展である VeLO(4000 TPU マー月間でメタ学習されたもの)は、より広いコミュニティにアクセスできており、その主な理由の一つは JAX の依存性以及びメタ学習後に独立して最適化器...
Original: arXiv:2506.10315v3 Announce Type: replace Abstract: Learned optimizers have been an active research topic over the past decade, with increasing progress toward practical, general-purpose optimizers t...
ChemAmp: 相互運用性のエージェントによる強化された化学ツール
ChemAmp: Amplified Chemistry Tools via Composable Agents
arXiv:2505.21569v3 Announce Type: replace 要旨:LLM ベースのエージェントは、特に化学分野においてツールオーケストレーションの maîtrise を証明したものの、下流のツールの制約によって単一タスクのパフォーマンスに限界がある。このため、私らは個別のタスク内の最適化された動的な座標化を通じて専門的なツールの集合的能力を強化する「ツール増幅」という新しい...
Original: arXiv:2505.21569v3 Announce Type: replace Abstract: Although LLM-based agents are proven to master tool orchestration in scientific fields, particularly chemistry, their single-task performance remai...
Softpick: 反転 Softmax を用いることで Attention Sink および大規模アクティベーションを排除
Softpick: No Attention Sink, No Massive Activations with Rectified Softmax
arXiv:2504.20966v4 Announce Type: replace 要約: Softpick を提案しました。これは Transformer の注意力機構における Softmax の置換として設計され、Sum-to-One 制約を有さない反転 Softmax 操作を用いた実装です。この手法は Attention Sink(注意力シンク)および大規模アクティベーションを効果的に排除...
Original: arXiv:2504.20966v4 Announce Type: replace Abstract: We introduce softpick, a rectified, not sum-to-one, drop-in replacement for softmax in transformer attention mechanisms that eliminates attention s...
被動・能動ソナー分類におけるヒストグラムベースのパラメータ効率化チューニング
Histogram-based Parameter-efficient Tuning for Passive and Active Sonar Classification
論文: arXiv:2504.15214v3 発表タイプ: 更新 要旨:パラメータ効率化転移学習(PETL)手法は、全モデルの再訓練を必要とせずに大きな人工ニューラルネットワークをダウンストリームタスクに適応させる。しかし、アダプターなどの既存のアダプティブ手法は、中間特徴埋め込みの分布シフトを捉えることが難しい場合がある。本稿では、ターゲットドメインの統計量を捉え、埋め込みを調整する、ヒストグ...
Original: arXiv:2504.15214v3 Announce Type: replace Abstract: Parameter-efficient transfer learning (PETL) methods adapt large artificial neural networks to downstream tasks without fine-tuning the entire mode...
Two Learning Algorithms: Multi-Stream Random Walk と非同期 gossip
A Tale of Two Learning Algorithms: Multiple Stream Random Walk and Asynchronous Gossip
arXiv:2504.09792v2 宣言タイプ: 置換 要約:gossip と random walk に基づく学習アルゴリズムは、分散学習において広く知られていますが、異なるグラフトポロジーやデータ異方性に対する相対的なパフォーマンスを理解するための理論的および実験的な分析は限られています。私たちはまず、複数のストリーム(ウォーク)を持つ random walk に基づく学習アルゴリズムを設...
Original: arXiv:2504.09792v2 Announce Type: replace Abstract: Although gossip and random walk-based learning algorithms are widely known for decentralized learning, there has been limited theoretical and exper...
人工的好奇心への情報幾何学的アプローチ
An Information-Geometric Approach to Artificial Curiosity
arXiv:2504.06355v2 発表 タイプ: 代替 要約:報酬が希薄な環境での学習は、強化学習における基本的な課題の一つを構成しています。人工的好奇心は、内生的報酬を導入して探索を誘導することでこの制限に対処しますが、これらの報酬の正確な記述は仍未明確でした。理想的には、そのような報酬はエージェントの環境に対する情報に依存し、その表現に関わらずあるべきであり、これは情報幾何学の中心的な不変...
Original: arXiv:2504.06355v2 Announce Type: replace Abstract: Learning in environments with sparse rewards remains a fundamental challenge in reinforcement learning. Artificial curiosity addresses this limitat...
知的な時系列モデリングの進化:S4 から Mamba にかけてのステートスペースアーキテクチャの演化、妥協点、および応用
Advancing Intelligent Sequence Modeling: Evolution, Trade-offs, and Applications of State- Space Architectures from S4 to Mamba
arXiv:2503.18970v3 発表タイプ:置換 要旨:構造化ステートスペースモデル(SSMs)は、再帰 neural ネットワーク(RNNs)およびTransformer に関する消失微分、時系列計算のボトルネック、および 2 乗の複雑さという決定的な限界に対処し、時系列モデリングにおいて変革的なパラダイムとして台頭した。構造化再帰とステートスペース表現を統合することで、SSMs は線形ま...
Original: arXiv:2503.18970v3 Announce Type: replace Abstract: Structured State Space Models (SSMs) have emerged as a transformative paradigm in sequence modeling, addressing critical limitations of Recurrent N...
視覚的表現へのテキスト的意味の強化:ヘテロジニアスフェデレート学習のためのテキスト的意味駆動プロトタイプ
Enhancing Visual Representation with Textual Semantics: Textual Semantics-Powered Prototypes for Heterogeneous Federated Learning
arXiv:2503.13543v2 告知タイプ: 置き換え 要約:フェデレートプロトタイプ学習(FedPL)は、フェデレート学習(FL)におけるデータのヘテロジニアスを処理する効果的な戦略として台頭した。FedPL では、クライアントがグローバルな特徴中心(プロトタイプ)のセットを協力的に構築し、ローカル特徴をこれらのプロトタイプに一致させることで、データのヘテロジニアスの影響を緩和する。Fe...
Original: arXiv:2503.13543v2 Announce Type: replace Abstract: Federated Prototype Learning (FedPL) has emerged as an effective strategy for handling data heterogeneity in Federated Learning (FL). In FedPL, cli...
AutoNFS: 自動的なニューラル特徴選択
AutoNFS: Automatic Neural Feature Selection
arXiv:2503.13304v2 Announce Type: replace 要約:特徴選択(FS)は、機械学習における基本的な課題であり、特に高次元のテーブル型データにおいては、解釈性と計算効率が決定的に重要です。既存の FS 手法は、与えられたタスクを解決するために必要な属性数を自動的に検出することができず、ユーザーへの介入や異なる特徴予算で行うモデルの再トレーニングを必要とします。さ...
Original: arXiv:2503.13304v2 Announce Type: replace Abstract: Feature selection (FS) is a fundamental challenge in machine learning, particularly for high-dimensional tabular data, where interpretability and c...
FSPO: 合成偏好に基づく少ショット最適化で、LLM を現実ユーザーにパーソナライズする
FSPO: Few-Shot Optimization of Synthetic Preferences Personalizes to Real Users
arXiv:2502.19312v2 Announce Type: replace Abstract: 大規模言語モデル(LLM)の広範なユーザーインターフェース応用(例:仮想アシスタント、コンテンツキュレーション)において、効果的なパーソナライゼーションは不可欠である。LLM の文脈中での強力な能力に触発され、私たちは大規模言語モデルのパーソナライゼーションアルゴリズムである「少ショット偏好最...
Original: arXiv:2502.19312v2 Announce Type: replace Abstract: Effective personalization of LLMs is critical for a broad range of user-interfacing applications such as virtual assistants and content curation. I...
Transformer Neural Processes: Kernel Regression 版
Transformer Neural Processes - Kernel Regression
論文: arXiv:2411.12502v4 Announce Type: replace 摘要: ニューラルプロセス(NP)は、確率過程の事後予測分布を直接モデル化するために設計された急速に発展しているモデルのクラスです。元々は、$O(n^3)$ の計算複雑さに制限されていた高斯過程(GPs)のスケールビデール代替策として開発されましたが、最も正確な現代の NP はしばしば GPs と同等の性能...
Original: arXiv:2411.12502v4 Announce Type: replace Abstract: Neural Processes (NPs) are a rapidly evolving class of models designed to directly model the posterior predictive distribution of stochastic proces...
Heterogeneous Sheaf Neural Networks
arXiv:2409.08036v2 発表 タイプ:置換 要約:ノードとエッジが異なるタイプと特徴空間に属する可能性があるヘテロジェニアスグラフは、生物学、化学、コンピュータネットワークなどの多岐にわたる実世界ドメインで生じています。既存の手法は、通常、モデルアーキテクチャ自体を変更することでこのヘテロジェニアスに対処しており、これにより専門化されたかつパラメータを多く含む設計が結果的に生まれま...
Original: arXiv:2409.08036v2 Announce Type: replace Abstract: Heterogeneous graphs, whose nodes and edges may belong to different types and feature spaces, arise in a wide variety of real-world domains such as...
自動的なサンプル選択戦略の組み合わせ:Few-Shot 学習のための ACSESS 手法
Automatic Combination of Sample Selection Strategies for Few-Shot Learning
arXiv:2402.03038v2 Announce Type: replace 要約:Few-Shot 学習において、サンプル選択はモデルの性能に大きな影響を与えます。確立された监督学習における効果的なサンプル選択戦略にもかかわらず、大規模言語モデルの研究はそれらを無視しており、個々のインコンテキスト学習の設定に特化した戦略を好む傾向にあります。本稿では、様々な確立された選択目的の長所と相補...
Original: arXiv:2402.03038v2 Announce Type: replace Abstract: In few-shot learning, the selection of samples has a significant impact on the performance of the model. While effective sample selection strategie...
見解に基づく推論学習による不形式定理証明
Learning to Reason with Insight for Informal Theorem Proving
arXiv:2604.16278v1 Announce Type: cross 要約:ほとんどすべての自動定理証明のアプローチは形式証明システムに依存していますが、不形式定理証明は、大規模言語モデル(LLM)の自然言語処理の強みとより一致します。この研究では、不形式定理証明における主なボトルネックを「見解」の欠如、すなわち複雑な問題を解決するために必要な核心技法を認識する困難であるとして特定しまし...
Original: arXiv:2604.16278v1 Announce Type: cross Abstract: Although most of the automated theorem-proving approaches depend on formal proof systems, informal theorem proving can align better with large langua...
高速学習率を持つ適応型マルチフィデリティ最適化
Adaptive multi-fidelity optimization with fast learning rates
arXiv:2604.16239v1 発表型:クロス 要旨:マルチフィデリティ最適化では、目的関数のコストの異なるバイアスを持たせた近似値が利用可能です。本稿では、限られた予算の中で、学習者がこれらの近似値のコストとバイアスの間トレードオフを行う必要があるローカルに滑らかな関数の最適化問題について研究します。まず、信頼性(fidelities)に関する異なる仮定に基づき、コストからバイアスへの関数...
Original: arXiv:2604.16239v1 Announce Type: cross Abstract: In multi-fidelity optimization, biased approximations of varying costs of the target function are available. This paper studies the problem of optimi...
AtManRL: 微分可能性注意サリエンシーを通じて誠実な推論への近道
AtManRL: Towards Faithful Reasoning via Differentiable Attention Saliency
arXiv:2604.16158v1 Announce Type: cross 要旨:大規模言語モデル(LLM)は複雑なタスクを解決するために、連鎖的思考(Chain-of-Thought, CoT)に基づく推論に依拠する傾向が強まっている。しかし、最終的な回答を裏付けているプロセスに一致した推論の追跡を確保し、単なる添え物として関与させるだけの状態ではないことは、依然として挑戦的な課題である。当...
Original: arXiv:2604.16158v1 Announce Type: cross Abstract: Large language models (LLMs) increasingly rely on chain-of-thought (CoT) reasoning to solve complex tasks. Yet ensuring that the reasoning trace both...
ドイツ手話(DGS)の童話に対する感情分析
Sentiment Analysis of German Sign Language Fairy Tales
arXiv:2604.16138v1 Announce Type: cross 要旨:ドイツ手話(DGS)の童話に対する感情分析のためのデータセットとモデルを提示します。まず、4 つの大規模言語モデル(LLM)と多数派投票を用いて、ドイツ童話のテキストセグメントに対して、3 つの価値レベル(ネガティブ、ニュートラル、ポジティブ)の感情分析を実施し、クリッペンドルフのアルファ係数を 0.781 とし...
Original: arXiv:2604.16138v1 Announce Type: cross Abstract: We present a dataset and a model for sentiment analysis of German sign language (DGS) fairy tales. First, we perform sentiment analysis for three lev...
線形方程式求解器における後方誤差の普遍収束 toward universal convergence of backward error in linear system solvers
Towards Universal Convergence of Backward Error in Linear System Solvers
arXiv:2604.16075v1 Announce Type: cross 摘要:$n\times n$ の線形系を $O(n^2)$ の時間計算量で、または相対誤差 $\epsilon$ 以内で解くアルゴリズムを見つけることは、数値線形代数と理論的計算科学における長年の未解決問題です。相対誤差を測る主なパラダイムは二つあり、一方の誤差(出力値から最適な解への距離)と後方誤差(出力値によって解...
Original: arXiv:2604.16075v1 Announce Type: cross Abstract: The quest for an algorithm that solves an $n\times n$ linear system in $O(n^2)$ time complexity, or $O(n^2 \text{poly}(1/\epsilon))$ when solving up ...
二重制約された公平な k 中心、k 中央値および k 平均に対する定数因子近似
Constant-Factor Approximations for Doubly Constrained Fair k-Center, k-Median and k-Means
arXiv:2604.16061v1 発表型:横断 要約:当研究は、保護属性が各点に付与された一般の距離空間において、二つの異なる公平制約の組み合わせによる二重制約された公平性モデルの枠組みで制約された離散的 k クラスタリング問題を研究します。与えられた距離空間 (P, d) および整数 k に対して、すべての点に指定された中心を持つ k つのクラスタに P を分割し、中心ベースの目的関数を最小...
Original: arXiv:2604.16061v1 Announce Type: cross Abstract: We study discrete k-clustering problems in general metric spaces that are constrained by a combination of two different fairness conditions within th...