2031 articles

arxiv_cs_ai 2026/4/24

LLM-as-a-Judge を自由文法学 QA 評価において利用するためのプロンプト最適化による判定傾向の活用

Exploiting LLM-as-a-Judge Disposition on Free Text Legal QA via Prompt Optimization

arXiv:2604.20726v2 Announce Type: replace-cross 本稿では、自由文法学の質問応答(QA)評価における LLM-as-a-Judge 評価において、プロンプト設計と判断者の選択がどのように機能するかを探求します。当研究は、自動タスクプロンプト最適化が人間中心設計を超えるか、最適化の効果が判断者のフィードバックスタイルによって変化するのか、および最適化され...

Original: arXiv:2604.20726v2 Announce Type: replace-cross Abstract: This work explores the role of prompt design and judge selection in LLM-as-a-Judge evaluations of free text legal question answering. We exam...

arxiv_cs_ai 2026/4/24

Knowledge Capsules: LLMs 向けの構造化された非パラメトリックメモリユニット

Knowledge Capsules: Structured Nonparametric Memory Units for LLMs

論文:arXiv:2604.20487v2 発表タイプ:replace-cross 要旨:大規模言語モデル(LLMs)は、知識をパラメトリックな重みとしてエンコードしており、これを再トレーニングせずに更新または拡張するのは費用対効果に欠けます。検索増強生成(RAG)は、検索されたテキストを入力に追加することでこの制限を緩和しますが、これは文脈の拡張を通じてのみ動作し、外部の知識が注意機構内のトーク...

Original: arXiv:2604.20487v2 Announce Type: replace-cross Abstract: Large language models (LLMs) encode knowledge in parametric weights, making it costly to update or extend without retraining. Retrieval-augme...

arxiv_cs_ai 2026/4/24

さらに深く、広く見る:マイクロビデオ人気予測のための統合的時空間拡張

Seeing Further and Wider: Joint Spatio-Temporal Enlargement for Micro-Video Popularity Prediction

arXiv:2604.20311v2 Announce Type: replace-cross 摘要:マイクロビデオ人気予測(MVPP)は、オンラインメディア上の動画の将来の人気を予測することを目的としており、コンテンツレコメンデーションやトラフィック割当などのアプリケーションにおいて不可欠です。実際の状況において、MVPPのアプローチは、既定的動画の時間的动态(temporal)と他の動画との...

Original: arXiv:2604.20311v2 Announce Type: replace-cross Abstract: Micro-video popularity prediction (MVPP) aims to forecast the future popularity of videos on online media, which is essential for application...

arxiv_cs_ai 2026/4/24

AgentLens: HUA-AG 移動 GUI エージェントにおける人間のエージェント間相互作用に適応した視覚的モード

AgentLens: Adaptive Visual Modalities for Human-Agent Interaction in Mobile GUI Agents

arXiv:2604.20279v2 Announce Type: replace-cross Abstract: モバイル GUI エージェントは、アプリインターフェースと直接相互作用することでスマートフォンのタスクを自動化できますが、その実行中にユーザーとどのようにコミュニケーションを取るべきかについては未解明な分野です。既存のシステムは、一時的な実行とバックグラウンド実行という二極化の一端...

Original: arXiv:2604.20279v2 Announce Type: replace-cross Abstract: Mobile GUI agents can automate smartphone tasks by interacting directly with app interfaces, but how they should communicate with users durin...

arxiv_cs_ai 2026/4/24

生物兵器化に向けたモデル能力評価とサファード:arXiv:2604.19811v2 Announce Type: replace-cross

Model Capability Assessment and Safeguards for Biological Weaponization

AI リーダーと安全レポートは、モデルの推論の進歩が、専門性の低いユーザーを含む者による生物学的誤用の可能性を可能化すると警告し、主要なラボではサファードの拡大が継続しているがまだ未確定であるという状況を説明している。本研究では、ChatGPT 5.2 Auto、Gemini 3 Pro Thinking、Claude Opus 4.5、および Meta の Muse Spark Thinking...

Original: arXiv:2604.19811v2 Announce Type: replace-cross Abstract: AI leaders and safety reports increasingly warn that advances in model reasoning may enable biological misuse, including by low-expertise use...

arxiv_cs_ai 2026/4/24

AI 生成運動処方におけるモデル間の一貫性:3 つの大型言語モデルをまたいだ繰り返し生成研究

Cross-Model Consistency of AI-Generated Exercise Prescriptions: A Repeated Generation Study Across Three Large Language Models

arXiv:2604.19598v2 Announce Type: replace-cross 要約: 本稿は、大型言語モデル (LLM) である GPT-4.1, Claude Sonnet 4.6, Gemini 2.5 Flash の 3 つモデルにおいて、温度 (temperature)=0 の条件の下で、運動処方の生成出力の繰り返し生成の一貫性を比較した。各モデルは 6 つの臨床シナリオ...

Original: arXiv:2604.19598v2 Announce Type: replace-cross Abstract: This study compared repeated generation consistency of exercise prescription outputs across three large language models (LLMs), specifically ...

arxiv_cs_ai 2026/4/24

サイバー防御ベンチマーク:SOC オペレーター向けに大規模言語モデルエージェントによる脅威検知性能評価

Cyber Defense Benchmark: Agentic Threat Hunting Evaluation for LLMs in SecOps

arXiv:2604.19533v3 Announce Type: replace-cross 要約:私たちは、大規模言語モデル(LLM)エージェントの脅威検知性能を評価するベンチマーク、「サイバー防御ベンチマーク」を導入しました。このベンチマークは、任意のガイドラインやヒントなしに、生の Windows エベントログのデータベースから、悪意のあるエベントの正確な時刻を特定するという SOC 分析...

Original: arXiv:2604.19533v3 Announce Type: replace-cross Abstract: We introduce the Cyber Defense Benchmark, a benchmark for measuring how well large language model (LLM) agents perform the core SOC analyst t...

arxiv_cs_ai 2026/4/24

Manifold 上の推理:拡散言語モデルにおける自己検証のための双方向一貫性

Reasoning on the Manifold: Bidirectional Consistency for Self-Verification in Diffusion Language Models

arXiv:2604.16565v2 発表タイプ:置換クロス 要約:拡散型大言語モデル(dLLMs)は、グローバルな計画に構造的利点を備えていますが、その答えが有効な推理のトレースを通じて正しいものであるかを効率的に検証することは依然として決定的な課題です。本研究では、幾何学的な視点である「Manifold 上の推理」を提案します。私たちが仮定していることは、有効な生成軌跡は学習された分布の高密度...

Original: arXiv:2604.16565v2 Announce Type: replace-cross Abstract: While Diffusion Large Language Models (dLLMs) offer structural advantages for global planning, efficiently verifying that they arrive at corr...

arxiv_cs_ai 2026/4/24

AI 패널が精度向上に与える影響の定量評価

Quantifying how AI Panels improve precision

arXiv:2604.16432v2 Announce Type: replace-cross\n要約:人材スクリーニングなどのアプリケーションにおける AI の使用は広範に普及しており、特に若年層の無業者増加に寄与する可能性があります。AI におけるバイアスが採用プロセスに組み込まれることが懸念されますが、その欠如にせよ、単一 AI への依存は問題となります。この論文では、現実的な履歴書(CV)...

Original: arXiv:2604.16432v2 Announce Type: replace-cross Abstract: AI in applications like screening job applicants had become widespread, and may contribute to unemployment especially among the young. Biases...

arxiv_cs_ai 2026/4/24

Stream2LLM: オブザーブ・コンテキストストリーミングとプリフィルによる TTFT(初生成までの時間)の低減

Stream2LLM: Overlap Context Streaming and Prefill for Reduced Time-to-First-Token (TTFT)

arXiv:2604.16395v2 Announce Type: replace-cross 要約:LLM 推論用のコンテキストリトリバルシステムには、高いリトリバルレイテンシが初生成までの時間(TTFT)と質のバランスを取る根本的な課題を生み出しています。コンテキストをストリーミングで漸次提供し、リトリバルと推論を同時実行することでこのレイテンシを緩和できますが、同時実行リクエストを導入すると...

Original: arXiv:2604.16395v2 Announce Type: replace-cross Abstract: Context retrieval systems for LLM inference face a critical challenge: high retrieval latency creates a fundamental tension between waiting f...

arxiv_cs_ai 2026/4/24

LogicEval: 現実世界のソフトウェアにおける論理的脆弱性の自動修復技術を系統的に評価するための枠組み

LogicEval: A Systematic Framework for Evaluating Automated Repair Techniques for Logical Vulnerabilities in Real-World Software

arXiv:2604.12994v2 Announce Type: replace-cross 論理的脆弱性は、メモリ安全性に起因するものではなく、プログラムロジック上の欠陥に起因するため、重大なセキュリティ故障をもたらす可能性があります。既存の自動プログラム修復技術は主にメモリ腐敗脆弱性の修復に焦点を当てており、脆弱コードと期待される動作の限定的な言語理解により、論理的脆弱性の修復においては困...

Original: arXiv:2604.12994v2 Announce Type: replace-cross Abstract: Logical vulnerabilities in software stem from flaws in program logic rather than memory safety, which can lead to critical security failures....

arxiv_cs_ai 2026/4/24

LASA: セマンティックボトルネックにおける言語不感型セマンティックアライメントと LLM セーフティ

LASA: Language-Agnostic Semantic Alignment at the Semantic Bottleneck for LLM Safety

arXiv:2604.12710v2 発表タイプ:代替 cross 要旨:大規模言語モデル(LLM)は高リソース言語では安全性性能が良好であるにもかかわらず、低リソース言語で問われる場合は重大な脆弱性を示すことがあります。我々は、このギャップが、言語不感型のセマンティック理解能力と、高リソース言語に偏った言語優位型のセーフティアライメントの不整合によるものであると帰因します。この仮説に整合すると...

Original: arXiv:2604.12710v2 Announce Type: replace-cross Abstract: Large language models (LLMs) often demonstrate strong safety performance in high-resource languages, yet exhibit severe vulnerabilities when ...

arxiv_cs_ai 2026/4/24

テキストと感情だけでは効果的な意味のアイコン的ジェスチャー予測:ロボットの共同音声生成へ

Efficient Emotion-Aware Iconic Gesture Prediction for Robot Co-Speech

arXiv:2604.11417v2 発表タイプ: replace-cross 摘要: 共同音声ジェスチャーは関与度を増やし、音声理解を向上させます。多くのデータ駆動型のロボットシステムが、リズム的な拍子のような動きを生成するものの、意味的な強調を統合しているものは少ないです。これを解決するために、私たちはテキストと感情のみから意味のアイコン的ジェスチャーの位置と強度を導出する、軽量トランスフォー...

Original: arXiv:2604.11417v2 Announce Type: replace-cross Abstract: Co-speech gestures increase engagement and improve speech understanding. Most data-driven robot systems generate rhythmic beat-like motion, y...

arxiv_cs_ai 2026/4/24

修正された Schrödinger ブリッジによる少ステップ可視化ナビゲーションの適合

Rectified Schr\"odinger Bridge Matching for Few-Step Visual Navigation

arXiv:2604.05673v2 Announce Type: replace-cross 要旨: 体積化 AI(Embodied AI)における視覚ナビゲーションは、自律エージェントが多次元感覚観測を連続的な長期の行動軌道に変換する際の中心的課題です。拡散モデルおよび Schrödinger ブリッジ(SB)に基づく生成性ポリシーは多模式的な行動分布を効果的に捉えることができますが、高い分...

Original: arXiv:2604.05673v2 Announce Type: replace-cross Abstract: Visual navigation is a core challenge in Embodied AI, requiring autonomous agents to translate high-dimensional sensory observations into con...

arxiv_cs_ai 2026/4/24

Crystal: Scholarly 出版物の相対的影響を特徴づける

Crystal: Characterizing Relative Impact of Scholarly Publications

arXiv:2603.26791v2 Announce Type: replace-cross Abstract: 被引用論文の影響を評価するには、通常、引用する論文内の孤立された文脈でその引用文脈を分析することで行われます。これは最も直接的に関係するテキストに焦点を当てますが、論文が引用するすべての作品における相対的な比較を防いでしまいます。私たちは、大規模言語モデル(LLM)を使用して、引用す...

Original: arXiv:2603.26791v2 Announce Type: replace-cross Abstract: Assessing a cited paper's impact is typically done by analyzing its citation context in isolation within the citing paper. While this focuses...

arxiv_cs_ai 2026/4/24

LiveSense: COTS ラップトップ上でレンジ・ドップラーに変わるリアルタイム Wi-Fi センシングプラットフォーム

LiveSense: A Real-Time Wi-Fi Sensing Platform for Range-Doppler on COTS Laptop

arXiv:2603.06545v2 Announce Type: replace-cross 抽象: われわれは、LiveSense を提案します。これは、ラップトップ上の COTS(商業オフザシェルフ)Wi-Fi NIC を、cm 単位のレンジ・ドップラーセンサーに変換し、同時通信機能を保持するクロスプラットフォームです。ラップトップは、COTS Intel AX211(Wi-Fi 6E)また...

Original: arXiv:2603.06545v2 Announce Type: replace-cross Abstract: We present LiveSense - a cross-platform that transforms a commercial off-the-shelf (COTS) Wi-Fi Network Interface Card (NIC) on a laptop into...

arxiv_cs_ai 2026/4/24

内在地低次元なデータに対するスコアマッチング拡散モデルの一般化特性

Generalization Properties of Score-matching Diffusion Models for Intrinsically Low-dimensional Data

arXiv:2603.03700v2 Announce Type: replace-cross 要約: スコアベースの拡散モデルが示す経験的な成功は驚くべきものでありながら、それらに関する統計的保証は未発展のままです。既存の分析は、自然画像など現実に見られる内在地低次元構造を反映しない、過酷な収束速度を提供することが多いのです。本論文では、有限数のサンプリングから未知の分布 $\mu$ を学習する...

Original: arXiv:2603.03700v2 Announce Type: replace-cross Abstract: Despite the remarkable empirical success of score-based diffusion models, their statistical guarantees remain underdeveloped. Existing analys...

arxiv_cs_ai 2026/4/24

ATLAS: システム・オン・チップのセキュリティ検証のための AI 支援威胁 - 断言学習

ATLAS: AI-Assisted Threat-to-Assertion Learning for System-on-Chip Security Verification

arXiv:2603.01170v2 Announce Type: replace-cross 要旨: この研究は、システム・オン・チップ(SoC)のセキュリティにおいて、標準化された威胁モデルとプロパティベースの形式検証を架け橋にする、LLM 駆動型枠組みである ATLAS を提案しています。脆弱性情報データベース(例:Common Weakness Enumeration (CWE))から出発...

Original: arXiv:2603.01170v2 Announce Type: replace-cross Abstract: This work presents ATLAS, an LLM-driven framework that bridges standardized threat modeling and property-based formal verification for System...

arxiv_cs_ai 2026/4/24

動的ロールアウトアロケーションとアドバンテージモジュレーションによるポリシー最適化:どのように割り当てるのか、どのように学習するか

How to Allocate, How to Learn? Dynamic Rollout Allocation and Advantage Modulation for Policy Optimization

arXiv:2602.19208v2 Announce Type: replace-cross 要約:検証可能な報酬(Verifiable Rewards)を伴う強化学習(Reinforcement Learning with Verifiable Rewards: RLVR)は、大規模言語モデル(Large Language Model: LLM)の推論において非常に効果的であることが証明され...

Original: arXiv:2602.19208v2 Announce Type: replace-cross Abstract: Reinforcement Learning with Verifiable Rewards (RLVR) has proven effective for Large Language Model (LLM) reasoning, yet current methods face...

arxiv_cs_ai 2026/4/24

意図の洗浄:AI セーフティデータセットは思っているほどではない

Intent Laundering: AI Safety Datasets Are Not What They Seem

arXiv:2602.16729v3 発表タイプ:replace-cross 摘要:私たちは、一般的に使用されている敵対的セーフティデータセットを 2 つの視点から質的に評価します:隔離条件下と実用状況。隔離条件下では、これらのデータセットが、以下の 3 つの定義された特性を持つ現実世界の敵対的攻撃をどれだけ反映しているかを調査します:陰謀的な意図に基づいていること、よく作られたこと、および分布...

Original: arXiv:2602.16729v3 Announce Type: replace-cross Abstract: We systematically evaluate the quality of widely used adversarial safety datasets from two perspectives: in isolation and in practice. In iso...