2031 articles
無人統計的降尺度化:差分後ろ向き抽出法による
Zero-Shot Statistical Downscaling via Diffusion Posterior Sampling
一般的な Supervised 気象降尺度化は、paired データの欠如と再分析に対する相対的な専門分野でないグリッド・モデル (GCM) との間の違いにより、大気モデルに一般化してしまいます。一方、現在の無人統計法は、大型スケーリングファクタ下での物理的不一致と gradients の消失問題に苦しんでいます。Zero-Shot Statistical Downscaling (ZSSD)とい...
Original: arXiv:2601.21760v2 Announce Type: replace Abstract: Conventional supervised climate downscaling struggles to generalize to Global Climate Models (GCMs) due to the lack of paired training data and inh...
多数抽出法下の大規模言語モデルに対する攻撃リスクの推定
Statistical Estimation of Adversarial Risk in Large Language Models under Best-of-N Sampling
大型言語モデル(LLM)は、単拍子評価や低コストの悪意のある(prompting)評価が、実世界のリスクを低估しています。実践では、攻撃者は大規模な並列抽出を用いてモデルを再検討し続けることで有害反応を生み出すまで攻撃を試みることができます。最新の研究では、繰り返すサンプリングが攻撃成功の成功率を上昇させることも示されていますが、大規模な悪意のあるリスクに対する原理的で確実な予測手段はまだ限られて...
Original: arXiv:2601.22636v2 Announce Type: replace Abstract: Large Language Models (LLMs) are typically evaluated for safety under single-shot or low-budget adversarial prompting, which underestimates real-wo...
ゲーム理論的で進行性のある共進化に対するLLMベースのヒューリスティック発見
Game-Theoretic Co-Evolution for LLM-Based Heuristic Discovery
大規模言語モデル (LLMs) は自動的なヒューリスティックの発見 (AHD) の急速な推進に貢献していますが、現存する多くの方法には静的評価対象とする固定されたインスタンス分布に対する限界があり、データ型の移行時に潜在的に過fitting および不適格の予測を行導します。我々は Algorithm Space Response Oracles (ASRO) を提案し、ゲーム理論的なフレームワーク...
Original: arXiv:2601.22896v2 Announce Type: replace Abstract: Large language models (LLMs) have enabled rapid progress in automatic heuristic discovery (AHD), yet most existing methods are predominantly limite...
アゲンシングな論理思考の最適化:合成的なセマンティック情報を利点にした検索を促すためのリトリーバル
Optimizing Agentic Reasoning with Retrieval via Synthetic Semantic Information Gain Reward
アゲンシングな論理思考は、大量の推理モデル (LRMs) が動的に外部知識を獲得する能力を提供します。しかし、そのリtrieval ターク プロセスを最適化することはまだ困難であり、高密度で本質的な報酬信号がないためです。 この論文では、InfoReasoner と呼ばれることにより情報を効果的に探求することの誘導につながる合成的なセマンティック情報得点報酬を紹介します。理論的には、我々は、モデル...
Original: arXiv:2602.00845v2 Announce Type: replace Abstract: Agentic reasoning enables large reasoning models (LRMs) to dynamically acquire external knowledge, but yet optimizing the retrieval process remains...
Agyn: チームベースの自律型ソフトウェアエンジニアリング用のマルチエージェントシステム
Agyn: A Multi-Agent System for Team-Based Autonomous Software Engineering
大型言語モデルは、個々のソフトウェアエンジニアリングタスクにおいて強力な能力を示し、一方で大多数の autonomous 系統は問題解決に至るまでが単一の大いなるプロセスかパイプラインベースのプロセスと考えている。しかし実世界のソフトウェア開発は組織としての活動をチーム中心に行うことで実現され、役割の明確な区別・通信・レビューが行われます。この報告では、全自動化モジュールとしてソフトウェアエンジニ...
Original: arXiv:2602.01465v2 Announce Type: replace Abstract: Large language models have demonstrated strong capabilities in individual software engineering tasks, yet most autonomous systems still treat issue...
ProjDevBench:AIコーディングエージェントのエンディトエンド開発ベンチマークへの調査
ProjDevBench: Benchmarking AI Coding Agents on End-to-End Project Development
最近のコードエージェントはシンプルなヒントから完全なコーディングベースを生成することが可能です。しかし、既存の評価は特定のバグ固定に焦点を当てていますが、エンディトエンド開発を追い越すのが遅れています。 ProjDevBenchは、コードエージェントに対してプロジェクト要件を提供し結果となるリポジトリに対するベンチマークです。 オンラインジャッジメント試験(OJ)、人工知能ロボット応助によるコード...
Original: arXiv:2602.01655v2 Announce Type: replace Abstract: Recent coding agents can generate complete codebases from simple prompts, yet existing evaluations focus on issue-level bug fixing and lag behind e...
量より質:コードコードエージェントのトラジェクトリーユーススケール
Beyond Quantity: Trajectory Diversity Scaling for Code Agents
コードの大規模言語モデル(LLM)がModel Context Protocol(MCP)を通してツールとのインタラクティブなアジェンダに進化するにつれ、モデルの一般化は、低品質のシミュレーションデータと、数量的なスケーラビリティから得る有益な効果の低下によってますます限られている問題が発生しています。また、数量中心のスケーリングでは、初期フレームワークにバリアントがあり、動径情報に対する利用度が...
Original: arXiv:2602.03219v2 Announce Type: replace Abstract: As code large language models (LLMs) evolve into tool-interactive agents via the Model Context Protocol (MCP), their generalization is increasingly...
AOrchestra:Agentic orchestrationのためのサブエージェント自動化
AOrchestra: Automating Sub-Agent Creation for Agentic Orchestration
言語エージェントは、タスク自動化への強力な可能性を示しました。複雑性と長期的なタスク解決のためにこれに期待することにより、サブエージェントとしてツールを考えるための多ターンタスク解決のサブエージェントモデルが普及しました。しかし、現在の設計はまだサブエージェントとしての動的抽象視を持っておらず、適応性を犲傷させてしまっています。我々は、フレームワークに依存せずに言語エージェントを抽象化する統一した...
Original: arXiv:2602.03786v2 Announce Type: replace Abstract: Language agents have shown strong promise for task automation. Realizing this promise for increasingly complex, long-horizon tasks has driven the r...
反応的な知識表現と非同期な Reasoning
Reactive Knowledge Representation and Asynchronous Reasoning
複雑な確率モデルの正確な推論はしばしば prohibitive計算コストを発生させる。この挑戦は特に、継続的に状況に合わせた信念シグナルを頻繁に関連性のある瞬間でアップデートする自律的なアгентにおいて鮮やかな実際環境に直結していることによって極めて深刻である。現在の手法があまり効果的ではないため、任意の変化に対して全てのモデルを再評価することから始めていたため、新しい情報について全く利用しない...
Original: arXiv:2602.05625v2 Announce Type: replace Abstract: Exact inference in complex probabilistic models often incurs prohibitive computational costs. This challenge is particularly acute for autonomous a...
産業化されたontology:構造的な理解が生み出す内容
Generative Ontology: When Structured Knowledge Learns to Create
一般的なontologyは、特定の領域を定義しますが、新しい製品を作成するように訓練されることが出来ません。超大規模言語モデルが流暢に文章を生成できる一方で、制約のある出力は合理的ではなく、メカニズムや目的がない場合があります。我々は「発生型」ontology(Generative Ontology)というフレームワークを作成しました:ontologyは文法を与え、LML(大規模言語モデル)が独創...
Original: arXiv:2602.05636v2 Announce Type: replace Abstract: Traditional ontologies describe domain structure but cannot generate novel artifacts. Large language models generate fluently but produce outputs l...
TKG-Thinker: 具体的な推論能力付き時空間知識グラフへ向けた動的思考支援のためのエージェント
TKG-Thinker: Towards Dynamic Reasoning over Temporal Knowledge Graphs via Agentic Reinforcement Learning
時系列的な知能構造が付与された知識グラフの応答 (TKGQA) は、具体的な時間に関連する質問に応えることを目的としています。 大きな言語モデル(LLMs)はこのTKGQAには重大なポテンシャルを示しており、現在の提示戦略がこれとどのように関連しているかについて二つの主要性から問題を持っています。まず、複雑な時系列制約を持つ状況でその効果が低いのです。次に、静的な提示によりモデルは自律性や一般化能...
Original: arXiv:2602.05818v2 Announce Type: replace Abstract: Temporal knowledge graph question answering (TKGQA) aims to answer time-sensitive questions by leveraging temporal knowledge bases. While Large Lan...
機能から行動へ:伝統的とアグレニシスのAIシステムに対する解釈性
From Features to Actions: Explainability in Traditional and Agentic AI Systems
近年、持続可能な予測に基づく説明方法に焦点を当てた説明可能AIは主に個々のモデル予測の解釈を行うことへ焦点を当け来ています。大量の言語モデル(LLM)の発展により、多段階の流れから行動が見出されるアグレネックス的なAIシステムは次第に実装されています。これらの状況では、成功・失敗は一貫する決定においてではなく、序列化された選択に基づいて解釈されます。そのような場面では役立っていますが、説明方法の設...
Original: arXiv:2602.06841v2 Announce Type: replace Abstract: Over the last decade, explainable AI has primarily focused on interpreting individual model predictions, producing post-hoc explanations that relat...
AIRS-Bench: AI研究分野の先端的な科学アジェンダのためのタスク-suite
AIRS-Bench: a Suite of Tasks for Frontier AI Research Science Agents
LLM アジェンダは、科学的研究の進展に向けて大きなpromiseを持っています。これを加速するためには、我们導入了AIRS-Bench(AI研究科学ベンチマーク)、これは状態を上達させる機学的学习論文から20のタスクをソースしたsuiteです。これらのタスクは、多様な分野に渡って存在しています、言語モデル、数学、生物情報学、時点時系列予測が含まれます。AIRS-Benchタスクでは、研究ライフサ...
Original: arXiv:2602.06855v2 Announce Type: replace Abstract: LLM agents hold significant promise for advancing scientific research. To accelerate this progress, we introduce AIRS-Bench (the AI Research Scienc...
20問ゲームとポリシーベースの再構造化強化学習
Playing 20 Question Game with Policy-Based Reinforcement Learning
20問ゲーム(Q20)は、論理的思考と創造力を奨励する有名なゲームです。このゲームにおいて、回答者は最初に知られる人物や種類の動物を含む物体を考えます。その後、質問者は20問以内でその物体を推確し、勝利しようとします。もしQ20システムについて使用されるユーザーが回答者であり、内部システムが質問者で、選択した質問による正しく物体を特定する最適な戦略が必要となっています。しかしながら、ゲーム環境の複...
Original: arXiv:1808.07645v4 Announce Type: replace-cross Abstract: The 20 Questions (Q20) game is a well known game which encourages deductive reasoning and creativity. In the game, the answerer first thinks ...
遅延に伴う強化学学習に基づく高利上げの入口での統合: stochastic通信遅延を含む不確実性のある遅延
Delay-Aware Reinforcement Learning for Highway On-Ramp Merging under Stochastic Communication Latency
Original: arXiv:2403.11852v4 Announce Type: replace-cross Abstract: Delayed and partially observable state information poses significant challenges for reinforcement learning (RL)-based control in real-world a...
ロボットWarehouseの自動選別システムを最適化するための機械学習の利用
Optimizing Automated Picking Systems in Warehouse Robots Using Machine Learning
世界中の_ecommerce_が飛躍的に発展している中で、物流業界での自動化の需要も増えるのがわかります。この研究では、 Warehouseにおける自動選別の仕組みに、ディープ学習と再処理事業技術を用いて、作成する生産性と正確さを改善し同時にする機会を取り除くことを目的としています。さらに、これらの技術の有効性を示すために実証分析を行うことで、ロボット選別性能と複雑な環境への適応性について詳しく説...
Original: arXiv:2408.16633v2 Announce Type: replace-cross Abstract: With the rapid growth of global e-commerce, the demand for automation in the logistics industry is increasing. This study focuses on automate...
RARe: 遠隔処理補助のリコメンド、インジェクションした例使用で
RARe: Retrieval Augmented Retrieval with In-Context Examples
arXiv:2410.20088v2 出力種別:上書きクロス アブストラクト: 直接の入力を利用している解読モデルに対する「インジェクショントークン」の効果がよく研究されているが、エンコーダ型のみのモデルに対してその有用性は未だに十分検討されていない。私たちのチームは、特別な状況で「直感的例」を含めた「解読」タスクのためのインジェクト学習の特性について研究している。 我々が開発した「RARe」と...
Original: arXiv:2410.20088v2 Announce Type: replace-cross Abstract: While in-context learning is well-studied with decoder-only language models (LLMs), its utility for encoder-only models remains underexplored...
Foundation Model-Ware向けのソフトウェアパフォーマンスエンジニアリング
Software Performance Engineering for Foundation Model-Powered Software
大規模言語モデル(LLM)などのファoundation模型(FMs)の台頭は、ソフトウェア開発を革命に変えています。原型が素晴らしい一方で、FMwareから生産クラスの製品への変換には様々な領域での複雑なエンジニアリングが必要です。重要なですが無視されているのはパフォーマンスエンジョイメントです。これは機能性目標として throughput と ラテランスを実現し、ユーザの不満を排除するとともに財...
Original: arXiv:2411.09580v2 Announce Type: replace-cross Abstract: The rise of Foundation Models (FMs) like Large Language Models (LLMs) is revolutionizing software development. Despite the impressive prototy...
大規模言語モデルを用いた性質判断テストの自動化アイテム生成
Automatic Item Generation for Personality Situational Judgment Tests with Large Language Models
性格評価におけるシチュエーションジャッジメントテスト (SJT) は、従来型のリケート型自己報告尺度よりもユニークな利点を持っていますが、開発のプロセスには労力が多く、時間がかかる一方で専門の知識が必要です。大規模言語モデル(LLM)の最新の advancements は、自動化アイテム生成 (AIG) の可能性を示しています。本研究ではこれらの進歩を利用して、構造化され固有化可能なフレームワーク...
Original: arXiv:2412.12144v4 Announce Type: replace-cross Abstract: Personality assessment through situational judgment tests (SJTs) offers unique advantages over traditional Likert-type self-report scales, ye...
厳密さ、信頼性、再現性が重要:2014-2025年のコードベンチマーク評価の一斎
Rigor, Reliability, and Reproducibility Matter: A Decade-Scale Survey of 572 Code Benchmarks
コードに関連のベンチマークは、大規模言語モデル(LLM)の評価において criticalな役割を果たします。一方で、これらのベンチマーク品質がコミュニティが模型能力について解釈する根本を左右します。近年ではbenchmark品質への意識が高まっていますが、10年間の調査(2014-2025)においても、意識が普及に繋がらない現実がありました。例えば2025年度だけでもテストケースを提供する際にコー...
Original: arXiv:2501.10711v4 Announce Type: replace-cross Abstract: Code-related benchmarks play a critical role in evaluating large language models (LLMs), yet their quality fundamentally shapes how the commu...