2031 articles
SafeDialBench:多ターンダイアlogueでの多種類の脱獄攻撃に対するLarge Language Model (LLM) の細部にわたる安全性評価 Bench
SafeDialBench: A Fine-Grained Safety Evaluation Benchmark for Large Language Models in Multi-Turn Dialogues with Diverse Jailbreak Attacks
Abstract: 大規模言語モデル(LLMs)の急速な進化とともに、LLMsの安全性は重要な課題となっています。現在のベンチマークは主に単ターンダイアlogueの評価や単一の脱獄攻撃法に対応していますが、これらのベンチマークではLLMの危険情報を詳細な見極めと取り扱いに関する能力を踏むことがありません。そのため、この問題に対する解決案となるためには多様な脱獄攻撃によって対応可能な各LLMの安全性...
Original: arXiv:2502.11090v4 Announce Type: replace-cross Abstract: With the rapid advancement of Large Language Models (LLMs), the safety of LLMs has been a critical concern requiring precise assessment. Curr...
ExpliCa: 大規模言語モデルにおける明示的因果推理の評価
ExpliCa: Evaluating Explicit Causal Reasoning in Large Language Models
大規模言語モデル (LLMs) は、解釈と推論の精度に要求されるタスクでますます広く使用されています。本論文では、私たちが ExpliCa を導入し、これにより LLMs の因果推理での実現性を評価することを紹介します。 ExpliCa は異なる語彙順序と言語的関連によって整合的に統合されている causal および時系列の関係性を持ちます。このデータセットには収集された crowdsourced...
Original: arXiv:2502.15487v4 Announce Type: replace-cross Abstract: Large Language Models (LLMs) are increasingly used in tasks requiring interpretive and inferential accuracy. In this paper, we introduce Expl...
MAFE:マルチア gentル・シスクリプション・デ・ジーモス・ディースキンズの公平性設計を可能にします
MAFE: Enabling Equitable Algorithm Design in Multi-Agent Multi-Stage Decision-Making Systems
アルゴリズムのフェアリングは通常、静的なまたは単一主体に関する設定で研究されますが、多数の相互作用するエンティティが多段階の行動から長期的な結果に影響を与える多くの現実世界の決定システムでは多段階分析が含まれています。特定の決定ポイントで適用されている既存のフェアリング手法は長い期間にわたる不平等を解消することが困難です。最近の研究は、公平性を順序の決定問題としてモデル化しましたが、中央機関や簡素...
Original: arXiv:2502.18534v2 Announce Type: replace-cross Abstract: Algorithmic fairness is often studied in static or single-agent settings, yet many real-world decision-making systems involve multiple intera...
コードをマークしないで壊さない: LLM生成コードの検出用コーディングワーテック
Marking Code Without Breaking It: Code Watermarking for Detecting LLM-Generated Code
arXiv:2502.18851v4 発表種類:上書きクロス发布 概要:LLM生成されたコードを発現する手段で、機能的な正確性を守ることは課題になっていますが、水印技術を使用することによりこの問題を解決できます。既存の方法は、高情報量トークンを通じて効果的に出力の品質を維持できるという仮定に基づいています。しかし、我々の分析によると、これは根本的な限界点を持っています: ステキキュアの要素である言...
Original: arXiv:2502.18851v4 Announce Type: replace-cross Abstract: Identifying LLM-generated code through watermarking poses a challenge in preserving functional correctness. Previous methods rely on the assu...
大型言語モデルからの税の観点:増加する税の罰を合法と認める例のケーススタディ
Taxation Perspectives from Large Language Models: A Case Study on Additional Tax Penalties
どのような能力を持っているであろうが、巨大な言語モデル(LLMs)は税理関係においてでしょうか。法律の専門家として多くの研究が進行しているにもかかわらず、税に関する研究自体は限定的です。これらの研究では使用されているデータセットも再現性が低いまま、また公開オープンソースとしては発表されていません。これが問題を引き起こしているため、我々PLATと命名された新しい測定基準が設計に取り入れられたことでご...
Original: arXiv:2503.03444v2 Announce Type: replace-cross Abstract: How capable are large language models (LLMs) in the domain of taxation? Although numerous studies have explored the legal domain, research de...
結論を総合するための多代理ディスカッションに基づく一貫性 Mechanism を達成
Achieving Unanimous Consensus Through Multi-Agent Deliberation
ブロックチェーンの合意メカニズムは、Proof-of-Work (PoW) と Proof-of-Stake (PoS) のアルゴリズムを利用してネットワークの機能性和整合性を保証しています。しかし、意見の尊重に基づく総合ではなく、誠実な多数派や重み付けの合意による総和に焦点が置かれた決定においては、このようなアプローチでは適応性に苦戦しているためです。この論文では、Large Language ...
Original: arXiv:2504.02128v2 Announce Type: replace-cross Abstract: Blockchain consensus mechanisms have relied on algorithms such as Proof-of-Work (PoW) and Proof-of-Stake (PoS) to ensure network functionalit...
コーディングintelligenceのカスタムを理解するための方向性
Towards an Understanding of Context Utilization in Code Intelligence
コード認識はソフトウェアエンジニアリングにおける最近進化している分野で、データロードに関わるさまざまなタスクに対する効果と効率向上を目指しています。これまでの研究では、源コードそのものに与えられた基本的な元のタスク入力(つまり、スコープ)を超えた周囲の情報を取り込んでより高いパフォーマンスを出す方法があります。これらの周辺信号は、APIドキュメントや抽象表現Syntax Treesなどのさまざまな...
Original: arXiv:2504.08734v2 Announce Type: replace-cross Abstract: Code intelligence is an emerging domain in software engineering, aiming to improve the effectiveness and efficiency of various code-related t...
BiGTex: 断組んだグラフテキストと固有のアーキテクチャで構築した文字属性グラフにおける構造的な信号とセマンティック信号の統合
Integrating Structural and Semantic Signals in Text-Attributed Graphs with BiGTex
本文は、文字属性グラフ(TAG)が表現学習において頂点付与文字のsemantic richnessとグラフの構造的依存性をモデルに捉える難易度が高いことを示しています。GNNはトポロジカル情報を効果的にモデリングしますが、これらにはunstructured textへの処理の能力がない一方で、LLMはこれらについて精通していますが通常グラップフ構造を無知です。 この仕事では、互換性のないグラフテキ...
Original: arXiv:2504.12474v4 Announce Type: replace-cross Abstract: Text-attributed graphs (TAGs) present unique challenges in representation learning by requiring models to capture both the semantic richness ...
分散情報のもとでの集体の合理的な判断にみつかる体系的な失敗: マルチ・ア gent LLMs
Systematic Failures in Collective Reasoning under Distributed Information in Multi-Agent LLMs
多数の言語モデル(LLMs)を応用したマルチ・アgentシステムは、散布されている情報を集めることにより意思決定を向上させることが期待されています。しかし、この能力を評価することが難しかったです。我々は「HiddenBench」を導入しました。これはヒドンのプロファイルパラダイムに基づいた65タスクのバーゲンで、分散情報のもとでの共同的理由処理から個人的な理由処理能力に焦点を当てています。15の先...
Original: arXiv:2505.11556v3 Announce Type: replace-cross Abstract: Multi-agent systems built on large language models (LLMs) are expected to enhance decision-making by pooling distributed information, yet sys...
Bias Scoresを超えて:小規模言語モデルの虚偽中立を明かす
Beyond Bias Scores: Unmasking Vacuous Neutrality in Small Language Models
小規模言語モデル(SLMs)を無資源化されたアプリケーションに採用した業界広まりに伴って、それらの倫理的・公平性への影響に関する理解が追いついています。このギャップを埋めるためには、我々はVasNeuという多視点評価パラマネジメントを開発しました。SLMの公平性のデプロイ前に検討します。このフレームワークは、4つの段階に亘るモデルの固有性(バイアス、有用性、曖昧さ対策、および社会的バイアスカテゴリ...
Original: arXiv:2506.08487v3 Announce Type: replace-cross Abstract: The rapid adoption of Small Language Models (SLMs) for resource constrained applications has outpaced our understanding of their ethical and ...
DRAGOn: 定期的に更新されたコーパスに基づくRAGのデザイン
DRAGOn: Designing RAG On Periodically Updated Corpus
Original: arXiv:2507.05713v3 Announce Type: replace-cross Abstract: This paper introduces DRAGOn, method to design a RAG benchmark on a regularly updated corpus. It features recent reference datasets, a questi...
捕食者プレデター関係における恐れと社会的報酬の進化
Evolution of Fear and Social Rewards in Prey-Predator Relationship
恐怖は、危険から逃げるために脳としての機能を含み、再強化学習(RL)を通じて学習できる。多くの研究者が恐怖が predators に逃避するために進化したと主張してきた通りであるが、異なるプレデータのプレッシャーがどのように恐れや他の報い、特に社会的報い(共有集団による)に対しても形変えを加えたかという点についてはまだ疑問の余地がない。 この研究で我々は、 predatory プレッシャーと恐怖の...
Original: arXiv:2507.09992v2 Announce Type: replace-cross Abstract: Fear is a critical brain function that enables us to learn to avoid danger via reinforcement learning (RL). While many researchers have argue...
効率的な大文字列モデル用の注意メカニズム: 対話性研究
Efficient Attention Mechanisms for Large Language Models: A Survey
Transformer基底となるアーキテクチャは、現在の大規模言語モデルの普遍的な骨格となっています。しかし、自自己対応が二次的時間とメモリ複雑さで生成され続けるため、長いContextモデリングを効率的にすることは根本的な障壁です。この制限に対処するために、最近の研究は、「線形対応」方法と「sparse対応」手法という2つの主要な分類を取り入れました。 線形複雑さは核近似や反復表現または高速重量...
Original: arXiv:2507.19595v3 Announce Type: replace-cross Abstract: Transformer-based architectures have become the prevailing backbone of large language models. However, the quadratic time and memory complexi...
情報理論に基づくグラフ融合とマルチモーダルモデルによる政策推論とダブルロボット制御
Information-Theoretic Graph Fusion with Vision-Language-Action Model for Policy Reasoning and Dual Robotic Control
ロボットの複雑なスキルを人間のビデオから教えることは、低レベルのターゲット追跡の依存性によって困難です。これらのターゲットは、異なる物体、場所構成レイアウト、および制御器配置で一般化できずです。我々はGraph-Fused Vision-Language-Action(GF-VLA)フレームワークを提出しました。これは両手ロボットシステムがRGBとDepthからの人間のデモンストレーションから直接...
Original: arXiv:2508.05342v2 Announce Type: replace-cross Abstract: Teaching robots dexterous skills from human videos remains challenging due to the reliance on low-level trajectory imitation, which fails to ...
DegDiT: 運動イベントグラフをguidedした解積み変形Transformerによる説明から生成された可制御音声
DegDiT: Controllable Audio Generation with Dynamic Event Graph Guided Diffusion Transformer
Original: arXiv:2508.13786v2 Announce Type: replace-cross Abstract: Controllable text-to-audio generation aims to synthesize audio from textual descriptions while satisfying user-specified constraints, includi...
DeepScholar-Bench: 実時間評価と自動的に評価する生成研究合成のバッジ
DeepScholar-Bench: A Live Benchmark and Automated Evaluation for Generative Research Synthesis
Original: arXiv:2508.20033v2 Announce Type: replace-cross Abstract: The ability to research and synthesize knowledge is central to human expertise and progress. A new class of AI systems--designed for generati...
No Answer Needed: 問文だけからのLLMの予想回答正解方向への線形探査から
No Answer Needed: Predicting LLM Answer Accuracy from Question-Only Linear Probes
Original: arXiv:2509.10625v2 Announce Type: replace-cross Abstract: Do large language models (LLMs) anticipate when they will answer correctly? To study this, we extract activations after a question is read bu...
製品設計におけるビーヴコーディング:AIによるデザイン開発のチームメンバーの認識を理解する
Vibe Coding for Product Design: Understanding Product Team Members' Perceptions of AI-Assisted Design and Development
アーマチュア:2509.10652v2種類:上書き交換 要約:生成型の人工知能は、製品設計における“ビーヴコーディング”という風に、製品チームメンバーが自然言語で意思表示し、それを機能的なプロトタイピングとコード化に変えることで、製品設計の経験をリニューアルさせている。発表の急速な採用に対応し、まだ研究が不足しているのはこのビーヴコーディングが製品開発のワークフローおよび協力方法にどう影響するかに...
Original: arXiv:2509.10652v2 Announce Type: replace-cross Abstract: Generative AI is reshaping product design practices through "vibe coding", where product team members express intent in natural language and ...
Fed-PISA: 個人差異化されたスタイル適応を含む Federated Voice Cloning
Fed-PISA: Federated Voice Cloning via Personalized Identity-Style Adaptation
声の合成テキスト-to-スピーチ (TTS) は、目標話者からデータが限られている場合でも、テキストから expressive で personalized のスピーキングを生成する仕組みです。federated learning (FL) はこのタスクに協力性とプライバシーの保存を提供するためのフレームワークとしています。ただし、現行のアプローチには通信コストが高すぎて、統一的なスタイルがあらか...
Original: arXiv:2509.16010v2 Announce Type: replace-cross Abstract: Voice cloning for Text-to-Speech (TTS) aims to generate expressive and personalized speech from text using limited data from a target speaker...
MIXRAG:グラフ理解と質問回答に対する混合の専門家による再取得強化生成
MIXRAG : Mixture-of-Experts Retrieval-Augmented Generation for Textual Graph Understanding and Question Answering
大規模言語モデル(LLMs)が様々な分野での驚異的な性能を実現し、知識に富む分野ではhallucinationに苦しんでいます。この問題に対して、再取得補助生成(RAG)はLLMに外部の知識源を利用することで、単なる静止した事前訓練のコーラルから一歩前に立てます。このようなソースとしてはテキストグラフが、構造的なまたと知的で栄養豊富な情報を持ち、より正確で解釈可能である理由により、この分野を引き立...
Original: arXiv:2509.21391v2 Announce Type: replace-cross Abstract: Large Language Models (LLMs) have achieved impressive performance across a wide range of applications. However, they often suffer from halluc...