3496 articles
FLOSS:ストラグレーとユーザーの選択的参加対応付きフェデレーテッドラーニング
FLOSS: Federated Learning with Opt-Out and Straggler Support
arXiv:2507.23115v2 Announce Type: replace 摘要:従来のフェデレーテッドラーニングシステムにおけるデータプライバシー研究は、トレーニングのためにデータ共有を同意したユーザーのデータを保ちながらプライバシーを守る操作に焦点を当てていました。しかし、現代のデータプライバシー契約は、ユーザーが学習に参加しつつ、必要な場合にデータ共有を選択的に拒否する権限を与えるよ...
Original: arXiv:2507.23115v2 Announce Type: replace Abstract: Previous work on data privacy in federated learning systems focuses on privacy-preserving operations for data from users who have agreed to share t...
計算機におけるラッチ効果:大規模言語モデルにおける相互作用駆動型累積知能を介したラッチ効果
The Ratchet Effect in Silico through Interaction-Driven Cumulative Intelligence in Large Language Models
arXiv:2507.21166v2 発表タイプ:代替 要約:人間の知能は、創造性が保持されエントロピー的ドリフトに対し抗う累次文化的進化(CCE)というプロセスを通じてスケールします。一方、大規模言語モデルのトレーニングは主に静的コーパスとパラメータ増大に依存しており、相互作用を通じて内生的な蓄積の余地は少ないままです。われわれは、異質的なエージェントが解決策を生成し、互いの出力を確認し、検証さ...
Original: arXiv:2507.21166v2 Announce Type: replace Abstract: Human intelligence scales through cumulative cultural evolution (CCE), a ratchet process in which innovations are retained against entropic drift. ...
FeDa4Fair: 公平性評価のためのクライアントレベルフェデレーテッドデータセット
FeDa4Fair: Client-Level Federated Datasets for Fairness Evaluation
arXiv:2506.21095v4 発表タイプ:置換 要旨:フェデレーテッド学習 (FL) はプライバシーを維持したまま協調的な訓練を可能にしますが、重要な課題である「公平性の幻想」を導入します。通常サーバー上で評価されるグローバルモデルは平均的に公平に見える一方で、クライアントレベルでは恒久的な差別が生じます。現在存在する公平性強化された FL ソリューションは、単一(通常は二値)の感度属性の...
Original: arXiv:2506.21095v4 Announce Type: replace Abstract: Federated Learning (FL) enables collaborative training while preserving privacy, yet it introduces a critical challenge: the "illusion of fairness'...
平均報酬オフライン強化学習における最適単一ポリシーサンプル複雑性および遷移時間カバレッジ
Optimal Single-Policy Sample Complexity and Transient Coverage for Average-Reward Offline RL
arXiv:2506.20904v2 発表タイプ:置換 摘要:私たちは、分散シフトおよび不均一カバレッジの観点からより困難な課題を提起する平均報酬 MDP におけるオフライン強化学習を研究し、理論的な観点からはまだ十分に検討されていない分野である。これまでの研究では、単一ポリシーデータカバレッジ仮定に基づいて性能保証を取得しているが、そのような保証はすべてのポリシーに uniform である追加の...
Original: arXiv:2506.20904v2 Announce Type: replace Abstract: We study offline reinforcement learning in average-reward MDPs, which presents increased challenges from the perspectives of distribution shift and...
普遍的アテンションシミュレーターの存在に関する研究
On the Existence of Universal Simulators of Attention
arXiv:2506.18739v2 発表タイプ:置換 要旨:以前のトランジューマーの学習可能に関する研究は、主に訓練を通じて特定のアルゴリズム的パターンを近似する能力を検討することに焦点を当てており、主にデータ駆動型的であり、確率的保証を提供するに留まりました。一方、表現力は、理論的に此类構造によって計算可能な問題を対処するために考案されました。これらの結果は、トランジューマーのチューリング完全...
Original: arXiv:2506.18739v2 Announce Type: replace Abstract: Previous work on the learnability of transformers \textemdash\ focused primarily on examining their ability to approximate specific algorithmic pat...
潜在確率的補完因子
Latent Stochastic Interpolants
arXiv:2506.02276v2 発表タイプ:置換 要約:確率的補完因子(Stochastic Interpolants、SI)は、二つの確率分布の間を柔軟に変換できる、生成モデルにおける強力な枠組みです。しかし、その用途は、二つの分布からサンプリングしたデータに直接アクセスしなければならないため、共的に最適化された潜在変数モデルでは未探索のままです。本稿では、端到端最適化されたエンコーダー、...
Original: arXiv:2506.02276v2 Announce Type: replace Abstract: Stochastic Interpolants (SI) is a powerful framework for generative modeling, capable of flexibly transforming between two probability distribution...
科学機械学習における可読性に関する定義と重要性
On the definition and importance of interpretability in scientific machine learning
arXiv:2505.13510v3 発表形式:置き換え 要旨:大規模データセットで訓練されたニューラルネットワークは、多くの物理現象の記述と予測に成功しており、それらは従来の単純な数式的表現から構成される科学モデルと異なり、自身の知見を科学知識の体系に統合できないという感覚を抱かれています。機械学習が人間にとって理解可能な関係を生成できないという批判は、より伝統的な科学形式からの離脱として「可...
Original: arXiv:2505.13510v3 Announce Type: replace Abstract: Though neural networks trained on large datasets have been successfully used to describe and predict many physical phenomena, there is a sense amon...
Kalman フィルター付き GRPO の提案:言語モデルにおける強化学習基盤の論理推論
Kalman Filter Enhanced GRPO for Reinforcement Learning-Based Language Model Reasoning
arXiv:2505.07527v5 Announce Type: replace 要約:优势関数は強化学習における中心的な概念であり、ポリシー勾配推定の変異を低減するために役立ちます。言語モデル化の文脈では、グループ相対ポリシー最適化(GRPO)が、优势の正規化に対してグループ内のサンプル平均を基準として利用する提案を行いました。この推定者は、グループサイズやロールアウトレベルの確率性が小さく、...
Original: arXiv:2505.07527v5 Announce Type: replace Abstract: The advantage function is a central concept in RL that helps reduce variance in policy gradient estimates. For language modeling, Group Relative Po...
すべてのロールアウトが有用ではない:大規模言語モデルの強化学習におけるロールアウトのダウンサンプリング
Not All Rollouts are Useful: Down-Sampling Rollouts in LLM Reinforcement Learning
arXiv:2504.13818v5 発表タイプ: 差し替え 要約:検証可能な報酬(verifiable rewards)を用いた強化学習(RLVR)は、大規模言語モデルの推論能力を向上させる上で主導的なアプローチとして台頭しました。しかし、このアプローチには基本的な計算資源とメモリ容量の非対称性が存在します。つまり、ロールアウト生成は圧倒的に並列処理が容易でメモリを軽くても、ポリシー更新は通信...
Original: arXiv:2504.13818v5 Announce Type: replace Abstract: Reinforcement learning with verifiable rewards (RLVR) has emerged as the leading approach for enhancing reasoning capabilities in large language mo...
Recent-Biased Causal Attention を用いた時間系列予測
Recency Biased Causal Attention for Time-series Forecasting
arXiv:2502.06151v2 発表タイプ:置換 要約:近接バイアス(Recency Bias)は、シリアーズなモデリングにおいて有用な帰納的事前知識です:それは近傍の観察を強調し、長期的な依存関係も依然として許容できます。標準的な Transformer アテンションはこの特性に欠け、全体対全体の相互作用に依存しており、時系列データの因果的かつ局所的な構造を見落としがちです。我々は、滑らか...
Original: arXiv:2502.06151v2 Announce Type: replace Abstract: Recency bias is a useful inductive prior for sequential modeling: it emphasizes nearby observations and can still allow longer-range dependencies. ...
トラジェクトリ・プレフェレンス・フィードバックに基づく最適な政策学習
Best Policy Learning from Trajectory Preference Feedback
arXiv:2501.18873v4 Announce Type: replace 要約: ヒューマン・フィードバックから強化学習(RLHF)は生成モデルの整列において強力なアプローチとして台頭しましたが、学習された報酬モデルへの依存により、誤指定と報酬ハッキングに対する脆弱性があります。トラジェクトリに基づく強化学習(PbRL)は、ノイズを持つ二進比較を直接活用することで、より堅牢な代替案を提供...
Original: arXiv:2501.18873v4 Announce Type: replace Abstract: Reinforcement Learning from Human Feedback (RLHF) has emerged as a powerful approach for aligning generative models, but its reliance on learned re...
MixLLM: 出力特徴量間のグローバル混精度量子化と高度に効率的なシステム設計
MixLLM: LLM Quantization with Global Mixed-precision between Output-features and Highly-efficient System Design
arXiv:2412.14590v2 Announce Type: replace Abstract: 量子化は LLM を小型化する最も効果的な手法の一つとなりました。しかし、既存の量子化ソリューションは、顕著な精度低下または低いシステム効率のいずれかの限界を示しています。本論文では、モデル内の異なる特徴量が異なる重要性を有するという知見に基づき、出力特徴量間の混精度量子化の最適化空間を探る ...
Original: arXiv:2412.14590v2 Announce Type: replace Abstract: Quantization has become one of the most effective methodologies to compress LLMs into smaller size. However, the existing quantization solutions st...
機械的忘却の検証は脆弱である
Verification of Machine Unlearning is Fragile
arXiv:2408.00929v2 発表 タイプ: 代替 要旨:機械学習におけるプライバシー関心事の高まりにより、データ所有者は最近の立法に基づき、機械的忘却を用いて自身のデータを機械学習モデルから削除する選択肢を得ました。機械的忘却の透明性を高め、モデル提供者による潜在的な不誠実を避けるために、様々な検証戦略が提案されています。これらの戦略は、データ所有者が自分のターゲットデータがモデルから効...
Original: arXiv:2408.00929v2 Announce Type: replace Abstract: As privacy concerns escalate in the realm of machine learning, data owners now have the option to utilize machine unlearning to remove their data f...
Towards Certified Unlearning for Deep Neural Networks
arXiv:2408.00920v4 Announce Type: replace Abstract: マシンアンラーニングの分野において、確立されたアンラーニング(certified unlearning)は、高い効率性と強い理論的保証を持つため、凸型機械学習モデルで広く研究されてきた。しかし、その非凸性が特徴となるディープニューラルネットワーク(DNN)への適用には、まだ課題が残っている。確立...
Original: arXiv:2408.00920v4 Announce Type: replace Abstract: In the field of machine unlearning, certified unlearning has been extensively studied in convex machine learning models due to its high efficiency ...
社会の世界に存在するデータ生成確率分布への Pretending( pretender)の費用について
The Costs of Pretending That There Are Data-Generating Probability Distributions in the Social World
arXiv:2407.17395v5 Announce Type: replace アブストラクト:機械学習の研究、特に公平かつ公平なアルゴリズムを推進する作業は、データ生成確率分布という概念に依存しています。標準的な前提としては、データポイントがそのような分布から「サンプリングされている」というので、観測されたデータからその分布について学習でき、したがって、同様にそこから引き出される未来のデータ...
Original: arXiv:2407.17395v5 Announce Type: replace Abstract: Machine Learning research, including work promoting fair or equitable algorithms, often relies on the concept of a data-generating probability dist...
オンライン討論における公平性考慮型多グループ対象集団検出
Fairness-Aware Multi-Group Target Detection in Online Discussion
arXiv:2407.11933v4 発表形式: 置換 要約:対象集団検出とは、コンテンツが「どの集団(複数)を针对または扱っているか」を検出するタスクであり、対象マーケティング、コンテンツ推奨、および集団別コンテンツ評価などの応用があります。主要な課題としては:1) 単一の投稿が複数の集団を针对する可能性があること、および 2) 公平性を確保するための集団間の検出精度の一貫性を確保することです。...
Original: arXiv:2407.11933v4 Announce Type: replace Abstract: Target-group detection is the task of detecting which group(s) a piece of content is ``directed at or about''. Applications include targeted market...
FlashNorm: Transformer の高速正規化
FlashNorm: Fast Normalization for Transformers
arXiv:2407.09577v4 Announce Type: replace Abstract: 正規化レイヤーは大型言語モデル(LLM)に広く使われていますが、計算のボトルネックとなっています:異なるベクトルと行列実行ユニットを持つハードウェアにおいては、RMS 計算がその後の行列乗算をブロックし、並列実行を妨げています。 当社は、正規化重みを取り込み、その後の線形レイヤーに融合させるこ...
Original: arXiv:2407.09577v4 Announce Type: replace Abstract: Normalization layers are ubiquitous in large language models (LLMs) yet represent a compute bottleneck: on hardware with distinct vector and matrix...
Value-Based Multi-objective Reinforcement Learning における問題:价值関数の干渉と過大評価に対する感受性
Issues with Value-Based Multi-objective Reinforcement Learning: Value Function Interference and Overestimation Sensitivity
arXiv:2402.06266v2 Announce Type: replace 要旨:マルチオブジェクト強化学習 (MORL) アルゴリズムは、ベクトル型報酬で表現される複数の衝突する目標を扱うより一般的なケースに拡張した従来の強化学習 (RL) を拡張しています。Q-学習など広く利用されているスカラー型 RL 手法は、(1) ベクトル型价值関数の学習と (2) ユーザーが異なる目標に対して持...
Original: arXiv:2402.06266v2 Announce Type: replace Abstract: Multi-objective reinforcement learning (MORL) algorithms extend conventional reinforcement learning (RL) to the more general case of problems with ...
グローバルオフショア・ウィンド・インフラ:密集型 Sentinel-1 タイムシリーズから見る導入と運用のダイナミクス
Global Offshore Wind Infrastructure: Deployment and Operational Dynamics from Dense Sentinel-1 Time Series
arXiv:2604.20822v1 Announce Type: cross 要旨:オフショア・ウィンドエネルギー分野は急速に拡大しており、世界的なインフラの導入と運用に対する独立した、高い時間解像度の監視ニーズが高まっています。地球観測に基づくオフショア・ウィンドインフラのマッピングは空間的定位において成熟しましたが、既存の公開データセットは建設と運用のダイナミクスに関する時間的に密集し、文脈...
Original: arXiv:2604.20822v1 Announce Type: cross Abstract: The offshore wind energy sector is expanding rapidly, increasing the need for independent, high-temporal-resolution monitoring of infrastructure depl...
収束進化:異なる言語モデルが類似的な数表現を学習する方法
Convergent Evolution: How Different Language Models Learn Similar Number Representations
arXiv:2604.20817v1 Announce Type: cross 要旨:言語モデルは自然テキストで訓練され、数字を主要周期が $T=2, 5, 10$ である周期的特徴を使って表現します。本稿では、これらの特徴の2段階の階層を特定します。トランスフォーマー、線形 RNN、LSTM、クラシックな単語埋め込みといった異なる方法で訓練されたモデルは、フーリエ領域に period-$T$ ...
Original: arXiv:2604.20817v1 Announce Type: cross Abstract: Language models trained on natural text learn to represent numbers using periodic features with dominant periods at $T=2, 5, 10$. In this paper, we i...