2031 articles
LLM 推論による多視点注意多重インスタンス学習の認知歪曲検出の向上
Multi-View Attention Multiple-Instance Learning Enhanced by LLM Reasoning for Cognitive Distortion Detection
arXiv:2509.17292v3 Announce Type: replace-cross 要約:認知歪曲は精神障害と密接に関連していますが、文脈の曖昧さ、共起、および語義的重複により、その自動検出は依然として困難です。本稿では、大規模言語モデル(LLM)と多重インスタンス学習(MIL)アーキテクチャを組み合わせた新しいフレームワークを提案します。これは解釈可能性と表現レベルの推論を向上させる...
Original: arXiv:2509.17292v3 Announce Type: replace-cross Abstract: Cognitive distortions have been closely linked to mental health disorders, yet their automatic detection remains challenging due to contextua...
大規模言語モデルを用いた「シリコンサンプル」の作成における解析的柔軟性の脅威
The threat of analytic flexibility in using large language models to simulate human data
arXiv:2509.13397v3 Announce Type: replace-cross 摘要:社会科学家は、現在、大規模言語モデルを使用して、人間の実験対象者にとって代わるための合成データセットである「シリコンサンプル」を作成しています。しかし、これらのサンプルを作成するには、モデル選択、サンプリングパラメータ、プロンプト形式、および提供される人口統計的または文脈的な情報の量など、多くの解...
Original: arXiv:2509.13397v3 Announce Type: replace-cross Abstract: Social scientists are now using large language models to create "silicon samples": synthetic datasets intended to stand in for human responde...
Theory of Mind in Action: The Instruction Inference Task in Dynamic Human-Agent Collaboration
arXiv:2507.02935v3 Announce Type: replace-cross 要事を成し遂げるための成功した人間とエージェントのチームワークには、エージェントが(人間の)主体者に与えられた指示を理解する能力が必要です。多くの場合、指示は不完全または曖昧である可能性があります。そのような場合、エージェントは共有コンテキストから言わせない意図を推論する必要性があり、つまり主体者の T...
Original: arXiv:2507.02935v3 Announce Type: replace-cross Abstract: Successful human-agent teaming relies on an agent being able to understand instructions given by a (human) principal. In many cases, an instr...
解釈可能なトレース、予想外の結果:トレースベースの知識蒸留における断絶の調査
Interpretable Traces, Unexpected Outcomes: Investigating the Disconnect in Trace-Based Knowledge Distillation
arXiv:2505.13792v2 Announce Type: replace-cross 要約:最近、論理推論に焦点を当てた大規模言語モデル(LLM)の進展により、Chain-of-Thought(CoT)トレース――最終答案が出る前に生成された中間推論ステップ――が導入されました。これらのトレースは DeepSeek R1 のように、推論を導き、小型モデルをトレーニングします。一般的なしか...
Original: arXiv:2505.13792v2 Announce Type: replace-cross Abstract: Recent advances in reasoning-focused Large Language Models (LLMs) have introduced Chain-of-Thought (CoT) traces - intermediate reasoning step...
PennyLane 中心のデータセット:RAG を活用した LLM ベースの量子コード生成の強化
A PennyLane-Centric Dataset to Enhance LLM-based Quantum Code Generation using RAG
arXiv:2503.02497v4 発表タイプ:replace-cross 要約:大規模言語モデル(LLM)は、コード生成、自然言語理解、およびドメイン固有の推論において強力な能力を持っています。しかし、その応用が量子ソフトウェア開発においてまだ限定的であるのは、LLM 訓練用の高品質データセットおよび信頼できる知識源としてのデータセットが不足しているためである部分です。このギャップを埋めるた...
Original: arXiv:2503.02497v4 Announce Type: replace-cross Abstract: Large Language Models (LLMs) offer powerful capabilities in code generation, natural language understanding, and domain-specific reasoning. T...
人文研究における低リソース言語向けの大型言語モデルの機会と課題
Opportunities and Challenges of Large Language Models for Low-Resource Languages in Humanities Research
arXiv:2412.04497v5 発表 タイプ: 替え - クロス 要旨: 低リソース言語は、人類の歴史を貴宝として保管し、文化的進化と知的多様体を体現するものであり、極めて重要な存在です。しかし、これらの言語は、包括的な研究と保存を妨げるデータ不足や技術的制限といった重要な課題に直面しています。最近、大型言語モデル(LLMs)の進歩は、これらの課題に対処する変革的な機会を提供しており、言語学...
Original: arXiv:2412.04497v5 Announce Type: replace-cross Abstract: Low-resource languages serve as invaluable repositories of human history, embodying cultural evolution and intellectual diversity. Despite th...
VeriGraph: 実行検証可能なロボットプランニングのためのシーングラフ
VeriGraph: Scene Graphs for Execution Verifiable Robot Planning
arXiv:2411.10446v3 Announce Type: replace-cross Abstract: 最近の視覚言語モデル(VLM)の進展はロボットタスクプランニングの可能性を広げたが、これらのモデルはしばしば不正確な行動シーケンスを生み出す。これらの限界に対処するため、我々は VLM をロボットプランニングに統合しながら行動の実行可能性を検証する新たなフレームワークである Ver...
Original: arXiv:2411.10446v3 Announce Type: replace-cross Abstract: Recent progress in vision-language models (VLMs) has opened new possibilities for robot task planning, but these models often produce incorre...
ライブビデオストリーミングにおける主観的・客観的品質体験(QoE)評価研究
Subjective and Objective Quality-of-Experience Evaluation Study for Live Video Streaming
arXiv:2409.17596v2 Announce Type: replace-cross 要約:近年、ライブビデオストリーミングはさまざまな SNS プラットフォームに広く普及しています。エンドユーザーの満足度と総合的な体験を反映する品質体験(QoE)は、大規模なライブストリーミングの圧縮および送信戦略を最適化し、知覚的に最適なレート変換トレードオフを実現するために、メディアサービスプロバ...
Original: arXiv:2409.17596v2 Announce Type: replace-cross Abstract: In recent years, live video streaming has gained widespread popularity across various social media platforms. Quality of experience (QoE), wh...
DASB -- 離散音声と音声認識ベンチマーク
DASB -- Discrete Audio and Speech Benchmark
arXiv:2406.14294v3 Announce Type: replace-cross 要約:離散音声トークンは、音声処理と言語処理の橋渡しとなり、音声を生成・理解できるマルチモーダル言語モデルを可能にするという潜在力から、最近注目を集めています。しかし、音韻内容、話者同一性、傍言語的提示などの重要な情報の保全は大きな課題です。既存の研究における評価設定の不整合により、最適なトークナイザー...
Original: arXiv:2406.14294v3 Announce Type: replace-cross Abstract: Discrete audio tokens have recently gained considerable attention for their potential to bridge audio and language processing, enabling multi...
COEVO: LLM ベースの RTL 生成における機能正解性と PPA 最適化の統合を可能にする共進化枠組み
COEVO: Co-Evolutionary Framework for Joint Functional Correctness and PPA Optimization in LLM-Based RTL Generation
arXiv:2604.15001v2 発表型: 置換 要約: LLM ベースの RTL コード生成手法は、機能正解性と PPA(電力、パフォーマンス、面積)の両方を標的とする傾向にありますが、既存のアプローチは両者の目標を一律的に分離しており、機能正解性が完全に達成される後にのみ PPA を最適化しています。シーケンシャルなマルチエージェントパイプライン、二値正解性ゲートを伴う進化探索、階層報酬...
Original: arXiv:2604.15001v2 Announce Type: replace Abstract: LLM-based RTL code generation methods increasingly target both functional correctness and PPA quality, yet existing approaches universally decouple...
Unified Entropy Control for Reinforcement Learning を活用した目的別探索
Targeted Exploration via Unified Entropy Control for Reinforcement Learning
arXiv:2604.14646v2 Announce Type: replace Abstract: 最近、強化学習 (RL) の進展により、大規模言語モデル (LLM) や画像言語モデル (VLM) の推論能力が向上しました。しかし、広く使用されているグループ相対方針最適化 (GRPO) は、エントロピーの崩壊に悩まされており、これがポリシーの早期収束と多様性の失墜を招いています。既存の探索手...
Original: arXiv:2604.14646v2 Announce Type: replace Abstract: Recent advances in reinforcement learning (RL) have improved the reasoning capabilities of large language models (LLMs) and vision-language models ...
Mind DeepResearch 技術報告
Mind DeepResearch Technical Report
arXiv:2604.14518v2 発表タイプ:差し替え 要約: 私たちは、精密に設計されたデータ合成および多段階トレーニングパイプラインを介して、約 300 億パラメータのモデルのみでも最先クラスの性能を実現する効率的なマルチエージェント深層研究枠組み「Mind DeepResearch(MindDR)」を発表します。MindDR の核心的な革新は、コラボレーション型の 3 エージェントアー...
Original: arXiv:2604.14518v2 Announce Type: replace Abstract: We present Mind DeepResearch (MindDR), an efficient multi-agent deep research framework that achieves leading performance with only ~30B-parameter ...
マルチエージェントからシングルエージェントへ:スキルディストイルが有効な時期は?
From Multi-Agent to Single-Agent: When Is Skill Distillation Beneficial?
arXiv:2604.01608v2 発表タイプ:置き換え 摘 要:マルチエージェントシステム(MAS)は複雑なタスクを解決するために専門性を分散しますが、これはしばしば大きな調整オーバーヘッド、文脈の断片化、そして脆弱なフェーズ順序をもたらします。MAS をシングルエージェントのスキルに дистилルすることで、これらのコストを回避できますが、この変換においていつ、何を дистилルすべきか...
Original: arXiv:2604.01608v2 Announce Type: replace Abstract: Multi-agent systems (MAS) tackle complex tasks by distributing expertise, though this often comes at the cost of heavy coordination overhead, conte...
ARC-AGI-3: フロントアジエンティックインテリジェンスのための新しい挑戦
ARC-AGI-3: A New Challenge for Frontier Agentic Intelligence
arXiv:2603.24621v2 Announce Type: replace 要旨: 私たちは、新しい抽象的なターンベースの環境においてエージェントが探査、目標の推測、環境ダイナミクスの内部モデル構築、そして明示的な指示なしに効果的な行動シーケンスの計画を行うことでアジエンティックインテリジェンスを研究するためのベンチマーク ARC-AGI-3 を導入します。先鞭の作品である ARC-AG...
Original: arXiv:2603.24621v2 Announce Type: replace Abstract: We introduce ARC-AGI-3, an interactive benchmark for studying agentic intelligence through novel, abstract, turn-based environments in which agents...
vla-eval:Visioん・言語・行動モデルの統合評価ハルネス
vla-eval: A Unified Evaluation Harness for Vision-Language-Action Models
arXiv:2603.13966v2 Announce Type: replace Abstract:視覚・言語・行動 (VLA) モデルは、複数のシミュレーションベンチマークにわたって評価されており、その数は増大している。しかし、各ベンチマークの評価パイプラインに追加するには、互換性が異なる依存関係の解決、未定義された評価プロトコルの一致、ドキュメントにない前処理の逆エンジニアリングが必要とな...
Original: arXiv:2603.13966v2 Announce Type: replace Abstract: Vision-Language-Action (VLA) models are increasingly evaluated across multiple simulation benchmarks, yet adding each benchmark to an evaluation pi...
Trace Rewritingによるモデルの不正蒸馏に対する防御:教師生成の推理トラースを改変する技術
Protecting Language Models Against Unauthorized Distillation through Trace Rewriting
arXiv:2602.15143v2 Announce Type: replace 摘要:知識蒸馏は、大規模言語モデル(LLM)の機能を、より小さく効率的な学生モデルへ転移させる広範に採用されている手法である。しかし、不正な知識蒸馏の利用は、最先端モデルの開発に費やされた莫大な努力とコストの不公正な利用を招く。本稿では、権益侵害を阻む二つの目的——(1) extit{アンチディスタル}(学習有用性...
Original: arXiv:2602.15143v2 Announce Type: replace Abstract: Knowledge distillation is a widely adopted technique for transferring capabilities from LLMs to smaller, more efficient student models. However, un...
LLM ベースシステムのためのコスト意識のあるモデル オーケストレーション
Cost-Aware Model Orchestration for LLM-based Systems
arXiv:2512.01099v2 Announce Type: replace 摘要: 現代の人工知能(AI)システムが進化し、能力が高まっている現在、それらは複雑なタスクを実行するために多様なツールとモデルを活用しています。これらのモデルのオーケストレーションは、大規模言語モデル(LLM)に委譲されており、それらはモデルの定性的な記述に基づいて意思決定を行っています。しかし、既存の LLM ...
Original: arXiv:2512.01099v2 Announce Type: replace Abstract: As modern artificial intelligence (AI) systems become more advanced and capable, they can leverage a wide range of tools and models to perform comp...
VeriMoA: 記法から HDL 生成への混合エージェント枠組み
VeriMoA: A Mixture-of-Agents Framework for Spec-to-HDL Generation
arXiv:2510.27617v2 発表タイプ:置換 要旨: レジスタ転送レベル (RTL) デザインの自動化は、開発者が増大する計算要件を満たすのを助ける可能性があります。大規模言語モデル (LLM) はハードウェア記述言語 (HDL) 生成の有望な候補を示していますが、パラメトリックな知識の限界とドメイン固有の制約により課題を抱えています。プロンプトエンジニアリングやファインチューニングは知...
Original: arXiv:2510.27617v2 Announce Type: replace Abstract: Automation of Register Transfer Level (RTL) design can help developers meet increasing computational demands. Large Language Models (LLMs) show pro...
分布シフトアラインメントが、LLM による調査回答分布のシミュレーションを支援する
Distribution Shift Alignment Helps LLMs Simulate Survey Response Distributions
arXiv:2510.21977v2 Announce Type: replace 要旨:大規模言語モデル(LLM)は、人間の調査回答をシミュレーションする有望な手段であり、大規模なデータ収集のコスト削減につながることが可能性があります。しかし、既存のゼロショット手法はプロンプト感度が高く精度が低く、従来のファインチューニング手法は学習セットの分布にのみ適合しており、それ自体が学習セットと異なる...
Original: arXiv:2510.21977v2 Announce Type: replace Abstract: Large language models (LLMs) offer a promising way to simulate human survey responses, potentially reducing the cost of large-scale data collection...
EvoTest:自己進化するエージェントシステムの為替時学習のための進化論的アプローチ
EvoTest: Evolutionary Test-Time Learning for Self-Improving Agentic Systems
arXiv:2510.13220v2 Announce Type: replace 要約:現在の AI エージェントの根本的な限界は、テスト時に複雑なスキルを即座に学習できない点であり、新しい環境では「巧みながっかりしたインターン」のような振る舞いをすることが多い。これにより、実用的な有用性は大きく制限されている。この課題を系統的に測定し、進展を推進するために、まず Jericho Test-Ti...
Original: arXiv:2510.13220v2 Announce Type: replace Abstract: A fundamental limitation of current AI agents is their inability to learn complex skills on the fly at test time, often behaving like "clever but c...