2031 articles

SafeDialBench：多ターンダイアlogueでの多種類の脱獄攻撃に対するLarge Language Model (LLM) の細部にわたる安全性評価 Bench

SafeDialBench: A Fine-Grained Safety Evaluation Benchmark for Large Language Models in Multi-Turn Dialogues with Diverse Jailbreak Attacks

Abstract: 大規模言語モデル（LLMs）の急速な進化とともに、LLMsの安全性は重要な課題となっています。現在のベンチマークは主に単ターンダイアlogueの評価や単一の脱獄攻撃法に対応していますが、これらのベンチマークではLLMの危険情報を詳細な見極めと取り扱いに関する能力を踏むことがありません。そのため、この問題に対する解決案となるためには多様な脱獄攻撃によって対応可能な各LLMの安全性...

Original: arXiv:2502.11090v4 Announce Type: replace-cross Abstract: With the rapid advancement of Large Language Models (LLMs), the safety of LLMs has been a critical concern requiring precise assessment. Curr...

SafeDialBench：多ターンダイアlogueでの多種類の脱獄攻撃に対するLarge Language Model (LLM) の細部にわたる安全性評価 Bench

ExpliCa: 大規模言語モデルにおける明示的因果推理の評価

MAFE:マルチア gentル・シスクリプション・デ・ジーモス・ディースキンズの公平性設計を可能にします

コードをマークしないで壊さない: LLM生成コードの検出用コーディングワーテック

大型言語モデルからの税の観点：増加する税の罰を合法と認める例のケーススタディ

結論を総合するための多代理ディスカッションに基づく一貫性 Mechanism を達成

コーディングintelligenceのカスタムを理解するための方向性

BiGTex: 断組んだグラフテキストと固有のアーキテクチャで構築した文字属性グラフにおける構造的な信号とセマンティック信号の統合

分散情報のもとでの集体の合理的な判断にみつかる体系的な失敗: マルチ・ア gent LLMs

Bias Scoresを超えて：小規模言語モデルの虚偽中立を明かす

DRAGOn: 定期的に更新されたコーパスに基づくRAGのデザイン

捕食者プレデター関係における恐れと社会的報酬の進化

効率的な大文字列モデル用の注意メカニズム: 対話性研究

情報理論に基づくグラフ融合とマルチモーダルモデルによる政策推論とダブルロボット制御

DegDiT: 運動イベントグラフをguidedした解積み変形Transformerによる説明から生成された可制御音声

DeepScholar-Bench: 実時間評価と自動的に評価する生成研究合成のバッジ

No Answer Needed: 問文だけからのLLMの予想回答正解方向への線形探査から

製品設計におけるビーヴコーディング:AIによるデザイン開発のチームメンバーの認識を理解する

Fed-PISA: 個人差異化されたスタイル適応を含む Federated Voice Cloning

MIXRAG：グラフ理解と質問回答に対する混合の専門家による再取得強化生成