2031 articles

arxiv_cs_ai 2026/4/20

エージェント安全性の視覚的盲点:無害なユーザー指示がコンピュータ利用エージェントの重大な脆弱性を浮き彫りにする

The Blind Spot of Agent Safety: How Benign User Instructions Expose Critical Vulnerabilities in Computer-Use Agents

arXiv:2604.10577v2 発表タイプ:置換クロス 要約:コンピュータ利用エージェント(CUA)は、今や実世界というデジタル環境で複雑なタスクを自律的に完了できますが、誤導された場合、有害なアクションをプログラムとして自動化するために利用されてしまうこともあります。既存の安全性評価は、不正利用やプロンプト注入など明らかな脅威を対象としていますが、ユーザー指示が完全に無害で、危害が発生する...

Original: arXiv:2604.10577v2 Announce Type: replace-cross Abstract: Computer-use agents (CUAs) can now autonomously complete complex tasks in real digital environments, but when misled, they can also be used t...

arxiv_cs_ai 2026/4/20

MR-Coupler: 機能結合解析に基づく自動化されたメタモルフィックテスト生成

MR-Coupler: Automated Metamorphic Test Generation via Functional Coupling Analysis

arXiv:2604.10126v2 Announce Type: replace-cross メタモルフィックテスト(MT)は、ソフトウェアテストにおけるオーケル(答え合わせ)問題を緩和する広く認識された手法です。しかし、その採用は、効率的なメタモルフィック関係(MR)を構築する難しさに阻まれており、しばしばドメイン固有または入手困難な知識が必要となります。本稿では、ソースコードに容易に入手可...

Original: arXiv:2604.10126v2 Announce Type: replace-cross Abstract: Metamorphic testing (MT) is a widely recognized technique for alleviating the oracle problem in software testing. However, its adoption is hi...

arxiv_cs_ai 2026/4/20

STRIDE-ED: エモパシー型会話システムのための戦略に根差した段階的推論フレームワーク

STRIDE-ED: A Strategy-Grounded Stepwise Reasoning Framework for Empathetic Dialogue Systems

arXiv:2604.07100v2 Announce Type: replace-cross 要約: エモパシー型対話は、ユーザーの感情状態を認識するだけでなく、応答生成を通じて戦略意識があり、文脈に敏感な意思決定を行うことが不可欠です。しかし、包括的なエモパシー戦略フレームワーク、タスクに一致する明示的な多段階推論、そして高品質な戦略意識データの欠如は、既存のアプローチを根本的に制限しており...

Original: arXiv:2604.07100v2 Announce Type: replace-cross Abstract: Empathetic dialogue requires not only recognizing a user's emotional state but also making strategy-aware, context-sensitive decisions throug...

arxiv_cs_ai 2026/4/20

Context-Agent:非線形対話のための動的対話ツリー

Context-Agent: Dynamic Discourse Trees for Non-Linear Dialogue

arXiv:2604.05552v2 Announce Type: replace-cross 要約:大規模言語モデル(LLM)は多くの言語タスクで顕著な性能を発揮していますが、人間の対話の非線形な流れを管理する際の根本的な課題に直面しています。対話履歴を平面的な直配列として扱う従来のアプローチは、自然言語の対話の本質的な階層性と分岐構造と整合性を欠き、トピックシフトや指示の修正を含む長期対話にお...

Original: arXiv:2604.05552v2 Announce Type: replace-cross Abstract: Large Language Models demonstrate outstanding performance in many language tasks but still face fundamental challenges in managing the non-li...

arxiv_cs_ai 2026/4/20

Spectral Tempering for Embedding Compression in Dense Passage Retrieval

arXiv:2603.19339v2 Announce Type: replace-cross Abstract: スケールに渡って稠密検索システムの展開において、次元削減は決定的に重要です。しかし、主流の事後方法には基本的なトレードオフが存在します。主成分分析 (PCA) は支配的な分異を保存しますが表現能力を未充分利用しており、一方、ホワイト化は等方性を強制するが、検索埋め込みの重尾固有スペク...

Original: arXiv:2603.19339v2 Announce Type: replace-cross Abstract: Dimensionality reduction is critical for deploying dense retrieval systems at scale, yet mainstream post-hoc methods face a fundamental trade...

arxiv_cs_ai 2026/4/20

ArrayTac: Closed-loop Piezoelectric Tactile Platformを介した形状、剛性、摩擦の連続可変レンダリング

ArrayTac: A Closed-loop Piezoelectric Tactile Platform for Continuously Tunable Rendering of Shape, Stiffness, and Friction

arXiv:2603.13829v2 Announce Type: replace-cross Abstract: 人間の触覚は形状、剛性、摩擦の統合に依存しますが、既存の触覚ディスプレイはこれら 3 つのサインを直感的な知覚のための連続的に調整可能で高精度な信号として同時にレンダリングすることができません。本稿では、4×4アクチュエータ配列上でこれら 3 次元を連続的に調整可能に同時にレンダリ...

Original: arXiv:2603.13829v2 Announce Type: replace-cross Abstract: Human touch depends on the integration of shape, stiffness, and friction, yet existing tactile displays cannot render these cues together as ...

arxiv_cs_ai 2026/4/20

Preconditioned Test-Time Adaptation for Out-of-Distribution Debiasing in Narrative Generation

arXiv:2603.13683v3 Announce Type: replace-cross Abstract: デバイアスされた大規模言語モデル(LLM)は既知または低バイアスのプロンプトに対して優れているにもかかわらず、生来で高バイアスのプロンプトに対処する際に見落ちは起こりがちです。出分布(OOD)検出を通じて、これらの高バイアスプロンプトが分布シフトを引き起こし、静的モデルのパフォーマ...

Original: arXiv:2603.13683v3 Announce Type: replace-cross Abstract: Although debiased large language models (LLMs) excel at handling known or low-bias prompts, they often fail on unfamiliar and high-bias promp...

arxiv_cs_ai 2026/4/20

パペットかパートナーか?デジタル公共圏におけるサイバーゴング言説の統治

Puppets or partners? Governing cyborg propaganda in the digital public square

arXiv:2602.13088v2 Announce Type: replace-cross 要約: 本質的な草根活動と自動化された影響力作戦の区別が崩れつつある。現代の政策議論は完全自律的な生成エージェントおよび合成コンテンツを最優先しているが、この論文は概念的な貢献として、検証済みの人間アカウントとアルゴリズム自動化を組み合わせた大規模個人向けコンテンツ生成を特徴とする「サイバーゴング言説(...

Original: arXiv:2602.13088v2 Announce Type: replace-cross Abstract: The distinction between genuine grassroots activism and automated influence operations is collapsing. While contemporary policy debates prior...

arxiv_cs_ai 2026/4/20

新出現する AI エージェントプロトコルにおけるセキュリティ脅威モデル:MCP、A2A、Agora、ANP の比較分析

Security Threat Modeling for Emerging AI-Agent Protocols: A Comparative Analysis of MCP, A2A, Agora, and ANP

arXiv:2602.11327v2 Announce Type: replace-cross 本稿では、モデルコンテキストプロトコル(MCP)、エージェント 2 エージェント(A2A)、Agora、およびエージェントネットワークプロトコル(ANP)を含む AI エージェント通信プロトコルの迅速な発展が、AI エージェントがツール、サービス、および互いにどのように通信するかを再定義しているという...

Original: arXiv:2602.11327v2 Announce Type: replace-cross Abstract: The rapid development of the AI agent communication protocols, including the Model Context Protocol (MCP), Agent2Agent (A2A), Agora, and Agen...

arxiv_cs_ai 2026/4/20

Capture the Flags: Semantic-Conserving Transformationsを用いたアジェント型 LLM の家族ベース評価

Capture the Flags: Family-Based Evaluation of Agentic LLMs via Semantics-Preserving Transformations

arXiv:2602.05523v2 Announce Type: replace-cross 概要: アジェント型大規模言語モデル(LLM)は、現在サイバーセキュリティタスクにおいて、Capture the Flag(CTF)ベンチマークを使用して評価されています。しかし、既存の点ごとのベンチマークは、ソースコードの代替バージョンに対するエージェントの堅牢性と一般化能力に関する限られた洞察しか...

Original: arXiv:2602.05523v2 Announce Type: replace-cross Abstract: Agentic large language models (LLMs) are increasingly evaluated on cybersecurity tasks using capture-the-flag (CTF) benchmarks, yet existing ...

arxiv_cs_ai 2026/4/20

Losses that Cook: Structured Recipe Generationのためのトポロジカル最適輸送

Losses that Cook: Topological Optimal Transport for Structured Recipe Generation

arXiv:2601.02531v2 Announce Type: replace-cross 本文書では、料理レシピは流暢で事実に基づいたテキストだけでなく、正確な計量・温度・手順の整合性、そして食材の組み合わせも必要とする複雑な手続きであることを示唆します。標準的なトレーニング手法は主にクロスエントロピーに基づき、流暢性のみを重視しています。RECIPE-NLG を発展させる形で、本研究で...

Original: arXiv:2601.02531v2 Announce Type: replace-cross Abstract: Cooking recipes are complex procedures that require not only a fluent and factual text, but also accurate timing, temperature, and procedural...

arxiv_cs_ai 2026/4/20

VLegal-Bench: 大規模言語モデルのベトナム法理論の認知基盤に優れたベンチマーク

VLegal-Bench: Cognitively Grounded Benchmark for Vietnamese Legal Reasoning of Large Language Models

arXiv:2512.14554v5 発表タイプ:置換クロス サマリー:大規模言語モデル(LLM)の急速な進展は、人工知能を法律分野に適用する新たな可能性をもたらしました。しかし、ベトナムの法律は複雑で、階層構造を持ち、頻繁に改訂されるため、これらのモデルが法律知識をどのように解釈し活用できるかを評価するには多大な課題が存在します。このギャップを解決するため、ベトナム法ベンチマーク(VLegal-...

Original: arXiv:2512.14554v5 Announce Type: replace-cross Abstract: The rapid advancement of large language models (LLMs) has enabled new possibilities for applying artificial intelligence within the legal dom...

arxiv_cs_ai 2026/4/20

TPA: RAG の嘘発見のための次トークン確率帰属

TPA: Next Token Probability Attribution for Detecting Hallucinations in RAG

arXiv:2512.07515v4 Announce Type: replace-cross 要約: リトリバル・アンゲスト・ジェネレーション(RAG)における嘘の検出は依然として課題です。既往の研究は、嘘を内部に保持された知識(FFN)とリトリバウンドコンテキストとの二項的衝突に帰属してきました。しかし、この視点のみでは不十分で、LLM の他の構成要素、例えばユーザークエリ、以前生成されたトー...

Original: arXiv:2512.07515v4 Announce Type: replace-cross Abstract: Detecting hallucinations in Retrieval-Augmented Generation remains a challenge. Prior approaches attribute hallucinations to a binary conflic...

arxiv_cs_ai 2026/4/20

言語モデルがセマンティックな教師:医療音声理解のためのトレーニング後の整列

Language Models as Semantic Teachers: Post-Training Alignment for Medical Audio Understanding

arXiv:2512.04847v2 Announce Type: replace-cross アブストラクト: プリー-trained 音声モデルは聴診音における音響パターンを検出することに優れていますが、その臨床的な意義を捉えきれないことが多く、診断タスクにおける適用性と性能の制限となっています。このギャップを埋めるために、AcuLa(Audio-Clinical Understanding ...

Original: arXiv:2512.04847v2 Announce Type: replace-cross Abstract: Pre-trained audio models excel at detecting acoustic patterns in auscultation sounds but often fail to grasp their clinical significance, lim...

arxiv_cs_ai 2026/4/20

地域暖房駅における予知保全の促進:サービスデータを基にしたラベル付与データセットと不具合検出評価枠組み

Enabling Predictive Maintenance in District Heating Substations: A Labelled Dataset and Fault Detection Evaluation Framework based on Service Data

arXiv:2511.14791v2 発表タイプ:置換クロス 要約:地域暖房駅における不具合の早期検出は、帰還温度を低減し効率を向上させるために不可欠である。しかし、この分野の進展は、公衆用のラベル付与データの有限な可用性によって妨げられていた。当論文では、サービス報告で検証された公衆データセット、精度・信頼性・早期性に基づく評価手法、およびエネルギーシステムの運用データにおける自動異常検出のため...

Original: arXiv:2511.14791v2 Announce Type: replace-cross Abstract: Early detection of faults in district heating substations is imperative to reduce return temperatures and enhance efficiency. However, progre...

arxiv_cs_ai 2026/4/20

MCQ を越える:方言バリエーションを含むオープンエンドなアラビア語文化的 QA ベンチマーク

Beyond MCQ: An Open-Ended Arabic Cultural QA Benchmark with Dialect Variants

arXiv:2510.24328v2 Announce Type: replace-cross 要約:大規模言語モデル(LLM)は日常の質問に応答する用途で増えつつありますが、文化的文脈や方言コンテンツに対するパフォーマンスは言語間で不均一です。我々は、(i) 現代標準アラビア語(MSA)の複数選択式(MCQ)を英語と複数のアラビア語方言へ翻訳し、(ii) オープンエンド式(OEQ)へ変換し、(i...

Original: arXiv:2510.24328v2 Announce Type: replace-cross Abstract: Large Language Models (LLMs) are increasingly used to answer everyday questions, yet their performance on culturally grounded and dialectal c...

arxiv_cs_ai 2026/4/20

検索が失敗する時:Web 拡張型大規模言語モデルのレッドチーム

When Search Goes Wrong: Red-Teaming Web-Augmented Large Language Models

arXiv:2510.09689v3 Announce Type: replace-cross 要約:大規模言語モデル(LLM)は、オープンインターネットから最新の情報にアクセスすることで、静的な知識の限界を克服するためにウェブ検索と統合されています。この統合はモデルの能力向上をもたらす一方で、単独で動作する大規模言語モデル(LLM)に主に焦点が当てられている既存のレッドチーム手法では、複雑な検索...

Original: arXiv:2510.09689v3 Announce Type: replace-cross Abstract: Large Language Models (LLMs) have been augmented with web search to overcome the limitations of the static knowledge boundary by accessing up...

arxiv_cs_ai 2026/4/20

AISysRev -- 論文タイトル・要約のスクリーニングを支援する LLM ベースのツール

AISysRev -- LLM-based Tool for Title-abstract Screening

arXiv:2510.06708v3 Announce Type: replace-cross アブストラクト:系統的レビューを行うことは手作業が重くなります。スクリーニングや研究選択の段階では、論文数が増大し、対処しにくくなることがあります。最近の研究では、大規模言語モデル(LLM)がタイトル・要約のスクリーニングを行うことができ、人類のタスクをサポートできることが示されています。この目的のため...

Original: arXiv:2510.06708v3 Announce Type: replace-cross Abstract: Conducting systematic reviews is laborious. In the screening or study selection phase, the number of papers can be overwhelming. Recent resea...

arxiv_cs_ai 2026/4/20

RoleConflictBench:LLM の文脈的感受性を評価するための役の衝突シナリオベンチマーク

RoleConflictBench: A Benchmark of Role Conflict Scenarios for Evaluating LLMs' Contextual Sensitivity

arXiv:2509.25897v2 Announce Type: replace-cross Abstract: 人間はしばしば、複数のロールの期待が衝突して同時に満たせない社会的ジレンマである「役の衝突」に直面します。大規模言語モデル(LLM)がこれらの社会的ダイナミクスにますます対応しているため、重要な研究課題が浮き彫りになりました。そのようなジレンマに直面したとき、LLM は動的な文脈の手...

Original: arXiv:2509.25897v2 Announce Type: replace-cross Abstract: People often encounter role conflicts -- social dilemmas where the expectations of multiple roles clash and cannot be simultaneously fulfille...

arxiv_cs_ai 2026/4/20

WARBERT: Web API 推薦のための階層型 BERT ベースモデル

WARBERT: A Hierarchical BERT-based Model for Web API Recommendation

arXiv:2509.23175v2 Announce Type: replace-cross Abstract: Web 2.0 とマイクロサービスの台頭に伴い、Web API の可用性が向上し、効果的な推薦システムの必要性が高まりました。既存のアプローチは一般的に、ラベルを使用して API を分類する「推薦タイプ」の手法と、マッシュアップとのマッチングを通じて API を検索する「マッチタイプ...

Original: arXiv:2509.23175v2 Announce Type: replace-cross Abstract: With the rise of Web 2.0 and microservices, the increasing availability of Web APIs has intensified the need for effective recommendation sys...