2031 articles
CSC:敵の毒を自身に向けよう
CSC: Turning the Adversary's Poison against Itself
arXiv:2604.21416v1 発表 Type: cross 摘要:汚染ベースバックドア攻撃は、トレーニングデータにトリガーを埋め込むことで深層ニューラルネットワークに重大な脅威を与え、モデルはトリガーされた入力を攻撃者が指定したラベルとして誤分類する一方で、クリーンデータに対する性能を維持します。既存の汚染抑制ベースの防御策は、特定の攻撃バリエーションへの検知が不十分であり、モデルの有用性...
Original: arXiv:2604.21416v1 Announce Type: cross Abstract: Poisoning-based backdoor attacks pose significant threats to deep neural networks by embedding triggers in training data, causing models to misclassi...
ノイズから意図へ:残差ブリッジを用いた生成型 VLA ポリシーのアンカー化
From Noise to Intent: Anchoring Generative VLA Policies with Residual Bridges
arXiv:2604.21391v1 発表タイプ:クロス 要旨:高度な語義的理解を低レベルな物理制御へ接続することは、認知と行動の基本的な時空間スケールのミスマッチに起因する、エンボディッド・インテリジェンスにおける恒久の課題であり、この差異を無視することで、現在の生成型 VLA ポリシーは最適化中の表現効率の低下と弱い条件一致を引き起こす。本稿では、我々は「意図からの微調整」というパラダイムへの...
Original: arXiv:2604.21391v1 Announce Type: cross Abstract: Bridging high-level semantic understanding with low-level physical control remains a persistent challenge in embodied intelligence, stemming from the...
推測と探究:インタラクティブな検索拡張優先度提起を通じたソフトウェア性能要件の定量化
Conjecture and Inquiry: Quantifying Software Performance Requirements via Interactive Retrieval-Augmented Preference Elicitation
arXiv:2604.21380v1 Announce Type: cross 摘要:ソフトウェア性能要件は自然言語で文書化されているため、それらを数学的な形式に変換することはソフトウェア工学にとって不可欠です。しかし、性能要件における曖昧さおよび人間の認知的不確実性は、解釈における高度な不確実性を生み出し、それらの自動的な定量化は未解決かつ困難な問題となっています。本研究では、この問題を形式化し...
Original: arXiv:2604.21380v1 Announce Type: cross Abstract: Since software performance requirements are documented in natural language, quantifying them into mathematical forms is essential for software engine...
VLAA-GUI:停止、回復、検索のタイミングを把握する、GUI 自動化のためのモジュラーフレームワーク
VLAA-GUI: Knowing When to Stop, Recover, and Search, A Modular Framework for GUI Automation
arXiv:2604.21375v1 Announce Type: cross Abstract: 自律 GUI エージェントは、初期停止(エージェントが検証可能な証拠なしに早々に成功を宣言してしまう事象)と反復ループ(失敗する同じアクションを循環し、回復なく続く事象)という 2 つの根本的な課題に直面しています。我々は、停止、回復、検索のタイミングをシステムの行動に統合的に導く 3 つの統合コン...
Original: arXiv:2604.21375v1 Announce Type: cross Abstract: Autonomous GUI agents face two fundamental challenges: early stopping, where agents prematurely declare success without verifiable evidence, and repe...
mcdok の SemEval-2026 タスク 13 参画: マシン生成されたコードの検出に LLM をフィートニング
mcdok at SemEval-2026 Task 13: Finetuning LLMs for Detection of Machine-Generated Code
arXiv:2604.21365v1 Announce Type: cross Abstract: 様々なプログラミング言語における、マシン生成されたコードスニペットの多分野検出は困難な課題です。SemEval-2026 タスク 13 は、この課題に対して二重分類検出问题および生成源の归属という複数の角度で対応しています。具体的には、サブタスクには生成モデル LLM ファミリの検出に加え、人間と...
Original: arXiv:2604.21365v1 Announce Type: cross Abstract: Multi-domain detection of the machine-generated code snippets in various programming languages is a challenging task. SemEval-2026 Task~13 copes with...
数値推理における推論時の強化学習におけるスパス信号的増幅の理解と低減
Understanding and Mitigating Spurious Signal Amplification in Test-Time Reinforcement Learning for Math Reasoning
arXiv:2604.21327v1 Announce Type: cross 要約:推論時の強化学習(TTRL)は、擬似ラベリングを通じて推論時にモデルを適応させるため、ラベルノイズからのスパス信号に脆弱である。実証的研究を通じて、我々は中程度の整合性を備えたレスポンスが不明確な領域を形成し、報酬ノイズの主な原因であることを観察した。重要なのは、このようなスパス信号がグループ相対的優勢評価を通じ...
Original: arXiv:2604.21327v1 Announce Type: cross Abstract: Test-time reinforcement learning (TTRL) always adapts models at inference time via pseudo-labeling, leaving it vulnerable to spurious optimization si...
非定常マルウェア検出における攻撃的回避: 類似制約による擾乱を通じたドリフトシグナルの最小化
Adversarial Evasion in Non-Stationary Malware Detection: Minimizing Drift Signals through Similarity-Constrained Perturbations
arXiv:2604.21310v1 Announce Type: cross 要旨: 深層学習は、さまざまなデータ表現において驚異的な精度を示す強力なマルウェア検出アプローチとして台頭しました。しかし、これらのモデルは、マルウェアの特性と検出システムが両方で絶えず進化する、現実世界の非定常環境において致命的な制約に直面しています。本研究は、セキュリティの根本的な問いを調査します: 攻撃者は、分類...
Original: arXiv:2604.21310v1 Announce Type: cross Abstract: Deep learning has emerged as a powerful approach for malware detection, demonstrating impressive accuracy across various data representations. Howeve...
クロスエントロピーは荷重を担う:K-Way エナジープローブの双方向予測符号化における事前登録されたスコープテスト
Cross-Entropy Is Load-Bearing: A Pre-Registered Scope Test of the K-Way Energy Probe on Bidirectional Predictive Coding
Cacioli (2026) は、標準的な差別主義的予測符号化ネットワークにおける K-Way エナジープローブが、約 log-ソフトマックスマージンの単調関数として減少することを示した。この減少は、クロスエントロピー(CE)が出力で、および実質的な前向き推論ダイナミクスが存在するという 5 つの仮定に基づいている。この事前登録された研究は、この減少が CE の削除に対する感受性をテストするために...
Original: arXiv:2604.21286v1 Announce Type: cross Abstract: Cacioli (2026) showed that the K-way energy probe on standard discriminative predictive coding networks reduces approximately to a monotone function ...
LLM デコーダーは公平に聴くことができるのか:言語モデルの事前知識が認識におけるバイアスをどう形成するかを示すベンチマーク
Do LLM Decoders Listen Fairly? Benchmarking How Language Model Priors Shape Bias in Speech Recognition
arXiv:2604.21276v1 Announce Type: cross 摘要:事前学習された大規模言語モデルが音声認識のタスク固有デコーダーを取り持つようになり、その文字由来の事前知識が人口統計学的グループ間で認識をより公平にし、より偏ったものにするかという重要な問題が立ち上がった。私たちは、5 つの人口統計学的軸(人種、アクセント、性別、年齢、母国語)にわたる約 43,000 個の発話を...
Original: arXiv:2604.21276v1 Announce Type: cross Abstract: As pretrained large language models replace task-specific decoders in speech recognition, a critical question arises: do their text-derived priors ma...
Calibeating: 予備精度に備え、推論を強化する推論法
Calibeating Prediction-Powered Inference
arXiv:2604.21260v1 発表タイプ:クロス 要約:ここでは、ラベル付きデータが少なく、ラベルなしデータが多く、かつ出力が正規化されていない可能性があるブラックボックス予備モデルを用いた半監督平均推計を研究する。この設定において標準的なアプローチは、逆確率加重法(IPW)の拡張版(AIPW)[Robins et al., 1994] で、予備モデルの仕様誤りに対する防御は可能であるが、...
Original: arXiv:2604.21260v1 Announce Type: cross Abstract: We study semisupervised mean estimation with a small labeled sample, a large unlabeled sample, and a black-box prediction model whose output may be m...
テキストを超えた計画:複雑な物語生成のためのグラフベースの推論
Planning Beyond Text: Graph-based Reasoning for Complex Narrative Generation
arXiv:2604.21253v1 Announce Type: cross 摘要:大規模言語モデル(LLM)は物語生成における驚異的な流暢さを示していますが、既存の手法は全局的な物語の整合性、文脈的な論理的整合性、そして滑らかなキャラクター開発を維持することに苦慮しており、構造的な亀裂を持つ単調な劇脚本を生み出す傾向があります。この目的に当たり、本研究では構造的なグラフ表現に基づく物語計画を行...
Original: arXiv:2604.21253v1 Announce Type: cross Abstract: While LLMs demonstrate remarkable fluency in narrative generation, existing methods struggle to maintain global narrative coherence, contextual logic...
CAP: LLMs における忘却ための可控对齐提示 (Controllable Alignment Prompting for Unlearning in LLMs)
CAP: Controllable Alignment Prompting for Unlearning in LLMs
arXiv:2604.21251v1 発表 種類:横断研究 概要:フィルタリングされていないコーパスで訓練された大規模言語モデル(LLM)には、機密情報の維持という内生的なリスクが存在し、規制準拠と倫理的安全性のために選択的な知識忘却が必要となります。しかし、既存のパラメータ変更方法は根本的な制約に直面しており、高い計算コスト、制御不能な忘却の境界、そしてモデルウェイトへの厳密なアクセス依存性を抱...
Original: arXiv:2604.21251v1 Announce Type: cross Abstract: Large language models (LLMs) trained on unfiltered corpora inherently risk retaining sensitive information, necessitating selective knowledge unlearn...
CorridorVLA: 散点アンカーを用いた生成式アクションヘッドに対する明示的な空間制約
CorridorVLA: Explicit Spatial Constraints for Generative Action Heads via Sparse Anchors
arXiv:2604.21241v1 Announce Type: cross アブストラクト:視覚・言語・アクション(VLA)モデルは、多モーダル入力を連続制御に接続するための中間表現を使用することが多いが、空間的ガイダンスはしばしば潜在特性を介して暗黙的に注入されている。我々は、散点空間アンカーを増分物理変化(例:$ riangle$-位置)として予測し、これを用いてアクション生成の訓練目標に...
Original: arXiv:2604.21241v1 Announce Type: cross Abstract: Vision--Language--Action (VLA) models often use intermediate representations to connect multimodal inputs with continuous control, yet spatial guidan...
SparKV: 効率的な On-Device LLM 推論のためのオーバーヘッド感知 KV カッシュローディング
SparKV: Overhead-Aware KV Cache Loading for Efficient On-Device LLM Inference
arXiv:2604.21231v1 Announce Type: cross サマリー:On-Device 大規模言語モデル(LLM)の効率的な推論は、限られたハードウェアリソースとフル入力コンテキストを処理して Key-Value(KV)キャッシュを構築するプレフィル段階の高いコストにより、依然として課題です。SparKV を提案し、これはクラウドベースの KV ストリーミングとオンデバイス計...
Original: arXiv:2604.21231v1 Announce Type: cross Abstract: Efficient inference for on-device Large Language Models (LLMs) remains challenging due to limited hardware resources and the high cost of the prefill...
EngramaBench: 構造化されたグラフ検索による長期対話記憶の評価
EngramaBench: Evaluating Long-Term Conversational Memory with Structured Graph Retrieval
arXiv:2604.21229v1 Announce Type: cross アブストラクト:大規模言語モデルのアシスタントは、多会的に蓄積された情報を持続化し、推理することをさらに期待されています。本研究では、ファクトリカル・リコール(構造化されたグラフ検索)、クロススペース統合、時間的推理、対抗的放棄(adversarial abstention)、そして発生的合成(emergent syn...
Original: arXiv:2604.21229v1 Announce Type: cross Abstract: Large language model assistants are increasingly expected to retain and reason over information accumulated across many sessions. We introduce Engram...
LLM 生成テキストの検出のための潜在報酬モデルを用いたゼロショット検出
Zero-Shot Detection of LLM-Generated Text via Implicit Reward Model
arXiv:2604.21223v1 Announce Type: cross 摘要: 大規模言語モデル(LLMs)は、様々なタスクにおいて驚くべき能力を示しています。しかし、人間のようなテキストを生成する能力は、潜在的な悪用の懸念を提起しています。これは、LLM 生成テキストを検出するための信頼性が高く効果的な手法の必要性を浮き彫りにしました。本稿では、LLM 生成テキスト検出に潜力的な報酬モデ...
Original: arXiv:2604.21223v1 Announce Type: cross Abstract: Large language models (LLMs) have demonstrated remarkable capabilities across various tasks. However, their ability to generate human-like text has r...
AGI 後の経済:自律性および福祉経済学の第一の根本定理
Post-AGI Economies: Autonomy and the First Fundamental Theorem of Welfare Economics
arXiv:2604.21216v1 発表タイプ:横断 要旨:福祉経済学の第一の根本定理は、福利を得る主体が自律的であり、それは自律性と道具性との二項対立に依拠している。福祉主体は自律性を有し、したがって選択を行い、効用比較に参加する能力を有するが、それ以外のものはそうではない。AGI 後の経済において、この前提は非自明になる。それは、人工知能システムが異なる度合いの自律性を示し、ツール、委任代理...
Original: arXiv:2604.21216v1 Announce Type: cross Abstract: The First Fundamental Theorem of Welfare Economics assumes that welfare-bearing agents are autonomous and implicitly relies on a binary distinction b...
SQLyzr: テキストから SQL 生成のための包括的なベンチマークおよび評価プラットフォーム
SQLyzr: A Comprehensive Benchmark and Evaluation Platform for Text-to-SQL
arXiv:2604.21214v1 Announce Type: cross 要旨: ラーグ・ランゲージ・モデル (LLM) の採用により、テキストから SQL 生成のモデルが劇的に改善され、それが現実世界のアプライーションにおいて広く使用されるようになった。多くのテキストから SQL 生成のモデルを評価するためのベンチマークが存在するものの、彼らはしばしば単一の集計スコアに頼るだけでなく、現実...
Original: arXiv:2604.21214v1 Announce Type: cross Abstract: Text-to-SQL models have significantly improved with the adoption of Large Language Models (LLMs), leading to their increasing use in real-world appli...
次の職業勧告における推論の背景について
On Reasoning Behind Next Occupation Recommendation
arXiv:2604.21204v1 発表タイプ:クロス 要旨:本研究では、大規模言語モデル(LLM)の将来の職業予測のパフォーマンスを高めるための新しい推論手法を開発しました。この手法では、まず原因生成器がユーザーの過去の学歴とキャリア履歴に基づいて「理由」を導出します。この理由がユーザーの好みを要約し、職業予測器の入力として使用されて、そのユーザーの次の職業が推奨されます。この二段階の職業予測...
Original: arXiv:2604.21204v1 Announce Type: cross Abstract: In this work, we develop a novel reasoning approach to enhance the performance of large language models (LLMs) in future occupation prediction. In th...
Open-World 環境における VLAs の(実際に)動作原理について
How VLAs (Really) Work In Open-World Environments
arXiv:2604.21192v1 Announce Type: cross 要旨: VLAs(Vision-Language-Action モデル)は、ロボットアプリケーションで広く利用されており、多様な操作課題において大きな成功を収めています。最近では、VLAs が BEHAVIOR1K(B1K)などのベンチマークを評価して、複雑な家事を解決する長射程のタスクにも使用されています。このよ...
Original: arXiv:2604.21192v1 Announce Type: cross Abstract: Vision-language-action models (VLAs) have been extensively used in robotics applications, achieving great success in various manipulation problems. M...