2031 articles

LLM-as-a-Judge を自由文法学 QA 評価において利用するためのプロンプト最適化による判定傾向の活用

Exploiting LLM-as-a-Judge Disposition on Free Text Legal QA via Prompt Optimization

arXiv:2604.20726v2 Announce Type: replace-cross 本稿では、自由文法学の質問応答（QA）評価における LLM-as-a-Judge 評価において、プロンプト設計と判断者の選択がどのように機能するかを探求します。当研究は、自動タスクプロンプト最適化が人間中心設計を超えるか、最適化の効果が判断者のフィードバックスタイルによって変化するのか、および最適化され...

Original: arXiv:2604.20726v2 Announce Type: replace-cross Abstract: This work explores the role of prompt design and judge selection in LLM-as-a-Judge evaluations of free text legal question answering. We exam...

LLM-as-a-Judge を自由文法学 QA 評価において利用するためのプロンプト最適化による判定傾向の活用

Knowledge Capsules: LLMs 向けの構造化された非パラメトリックメモリユニット

さらに深く、広く見る：マイクロビデオ人気予測のための統合的時空間拡張

AgentLens: HUA-AG 移動 GUI エージェントにおける人間のエージェント間相互作用に適応した視覚的モード

生物兵器化に向けたモデル能力評価とサファード：arXiv:2604.19811v2 Announce Type: replace-cross

AI 生成運動処方におけるモデル間の一貫性：3 つの大型言語モデルをまたいだ繰り返し生成研究

サイバー防御ベンチマーク：SOC オペレーター向けに大規模言語モデルエージェントによる脅威検知性能評価

Manifold 上の推理：拡散言語モデルにおける自己検証のための双方向一貫性

AI 패널が精度向上に与える影響の定量評価

Stream2LLM: オブザーブ・コンテキストストリーミングとプリフィルによる TTFT（初生成までの時間）の低減

LogicEval: 現実世界のソフトウェアにおける論理的脆弱性の自動修復技術を系統的に評価するための枠組み

LASA: セマンティックボトルネックにおける言語不感型セマンティックアライメントと LLM セーフティ

テキストと感情だけでは効果的な意味のアイコン的ジェスチャー予測：ロボットの共同音声生成へ

修正された Schrödinger ブリッジによる少ステップ可視化ナビゲーションの適合

Crystal: Scholarly 出版物の相対的影響を特徴づける

LiveSense: COTS ラップトップ上でレンジ・ドップラーに変わるリアルタイム Wi-Fi センシングプラットフォーム

内在地低次元なデータに対するスコアマッチング拡散モデルの一般化特性

ATLAS: システム・オン・チップのセキュリティ検証のための AI 支援威胁 - 断言学習

動的ロールアウトアロケーションとアドバンテージモジュレーションによるポリシー最適化：どのように割り当てるのか、どのように学習するか

意図の洗浄：AI セーフティデータセットは思っているほどではない