2031 articles
生成人工知能と人間の好意度を一致させるためのオンラインレビュー管理用の新しい大規模言語モデルファインチューニング手法
Align Generative Artificial Intelligence with Human Preferences: A Novel Large Language Model Fine-Tuning Method for Online Review Management
arXiv:2604.21209v1 Announcement Type: new 要約:オンラインレビューは消費者の意思決定プロセスにおいて決定的役割を果たしています。既存の研究は、管理者によるレビューへの対応が顧客関係管理と企業の業績に著しい影響を及ぼすことを示しています。しかし、オンラインレビューの急速な拡大に伴う対応に要する多大な人間の手作業のために、オンラインレビューの大部分が無視され...
Original: arXiv:2604.21209v1 Announce Type: new Abstract: Online reviews have played a pivotal role in consumers' decision-making processes. Existing research has highlighted the significant impact of manageri...
Trust but Verify: Introducing DAVinCI -- A Framework for Dual Attribution and Verification in Claim Inference for Language Models
arXiv:2604.21193v1 Announce Type: new Abstract: Large Language Models (LLMs) have demonstrated remarkable fluency and versatility across a wide range of NLP tasks, yet they remain prone to factual in...
Original: arXiv:2604.21193v1 Announce Type: new Abstract: Large Language Models (LLMs) have demonstrated remarkable fluency and versatility across a wide range of NLP tasks, yet they remain prone to factual in...
マルチエージェントによる権能(エンパワーメント)と集団における複雑な振る舞いの発現
Multi-Agent Empowerment and Emergence of Complex Behavior in Groups
arXiv:2604.21155v1 Announce Type: new 要約:内生的動機(自己動的動機)には、人工的に設計されず、エージェントが周囲環境と相互作用した際に発現する振る舞いへのインセンティブが含まれ、近年注目を集めています。本稿では、そのような動機の一つである「権能(empowerment)」に基づく振る舞いの発現、特に複数のエージェントにおける発現を対象として調査を行います。...
Original: arXiv:2604.21155v1 Announce Type: new Abstract: Intrinsic motivations are receiving increasing attention, i.e. behavioral incentives that are not engineered, but emerge from the interaction of an age...
パーソナライズされた理学療法のためのエージェント型 AI:生成動画トレーニングとリアルタイム姿勢補正のためのマルチエージェンティフレームワーク
Agentic AI for Personalized Physiotherapy: A Multi-Agent Framework for Generative Video Training and Real-Time Pose Correction
arXiv:2604.21154v1 Announce Type: new 要約:自宅での理学療法遵守率は、パーソナライズされた監督と動的フィードバックの不足により依然として極めて低いままです。既存のデジタルヘルスソリューションは、患者の特定の傷害制限や家庭環境を考慮していない静的な事前に録画された動画ライブラリや一般的な 3D アバターに頼っているため、効果を発揮できていません。本論文では、テ...
Original: arXiv:2604.21154v1 Announce Type: new Abstract: At-home physiotherapy compliance remains critically low due to a lack of personalized supervision and dynamic feedback. Existing digital health solutio...
政治的転換下における AI ガバナンス:コンプライアンス設計の対齐表面
AI Governance under Political Turnover: The Alignment Surface of Compliance Design
arXiv:2604.21103v1 Announce Type: new 抽象: 政府は、行政判断をより安価、スケールリングに強く、一貫性のあるものにするために AI を活用する意欲が高まっている。しかし、確率的 AI を公共行政に組み込むためには、判断をレビュー可能、繰り返し可能、かつ法的に擁護できるコンプライアンス層を内包させる必要がある。その層は、法から逸脱したことを容易に検出することで...
Original: arXiv:2604.21103v1 Announce Type: new Abstract: Governments are increasingly interested in using AI to make administrative decisions cheaper, more scalable, and more consistent. But for probabilistic...
傾向性の推論:LLM の行動に対する環境的な寄与要因
Propensity Inference: Environmental Contributors to LLM Behaviour
arXiv:2604.21098v1 Announce Type: new 要旨:整合されていない AI システムからの制御喪失のリスクに起因し、言語モデルの無許可行動の傾向を測定する手法を開発・適用します。我々は、環境的要因の変化が行動に与える効果を分析し、ベイズ一般線形モデルを通じて効果量を定量化し、循環的分析的に直面する問題に対する明示的な対策を講じるという、3 つの方法論的な改善に貢献しま...
Original: arXiv:2604.21098v1 Announce Type: new Abstract: Motivated by loss of control risks from misaligned AI systems, we develop and apply methods for measuring language models' propensity for unsanctioned ...
プロンプトを注意せよ:LLM を用いたタスク計画の説明の自己適応的生成
Mind the Prompt: Self-adaptive Generation of Task Plan Explanations via LLMs
arXiv:2604.21092v1 発表タイプ:新規 摘要:大規模言語モデル(LLM)を複雑なソフトウェアシステムに統合することは、暗黒 AI プロセス、例えば自動的なタスク計画の人間が理解できる説明を生成することを可能にします。ただし、これらの説明の品質と信頼性は、効果的なプロンプトエンジニアリングに大きく依存します。多様な利害関係者がプロンプトをどのように作成・修正するかが体系的に理解されて...
Original: arXiv:2604.21092v1 Announce Type: new Abstract: Integrating Large Language Models (LLMs) into complex software systems enables the generation of human-understandable explanations of opaque AI process...
InVitroVision: 自然言語を用いて胚の発達を自動記述するためのマルチモーダル AI モデル
InVitroVision: a Multi-Modal AI Model for Automated Description of Embryo Development using Natural Language
arXiv:2604.21061v1 発表型:新規 要約: 人工知能(AI)の応用が IVF(体外受精)の決定の一貫性と標準化の向上に有望であるにもかかわらず、多くのケースではアノテーションされたデータに依存しており、IVF データのマルチモーダルな性質を十分に活用していない。本研究では、基礎的なビジョン・言語モデルを微調整して、胚の形態と発達の自然言語記述を予測できるかどうかを調査した。公衆公開...
Original: arXiv:2604.21061v1 Announce Type: new Abstract: The application of artificial intelligence (AI) in IVF has shown promise in improving consistency and standardization of decisions, but often relies on...
Active Data
arXiv:2604.21044v1 Announce Type: new 要約:いくつかの複雑な分野では、問題固有の分解は、設計の理解と指定を可能にするために、単一構成(monolithic)の設計に比べて優位性を発揮することができます。この論文では、巨大で複雑なデータセットに対して論理的思考を行う直感的で実用的なアプローチを提示します。私たちのアプローチは、Active Data(すなわち、環...
Original: arXiv:2604.21044v1 Announce Type: new Abstract: In some complex domains, certain problem-specific decompositions can provide advantages over monolithic designs by enabling comprehension and specifica...
誰が公平性を定義するか?生成モデルにおける人口統計的表現に対するターゲットベースのプロンプトング
Who Defines Fairness? Target-Based Prompting for Demographic Representation in Generative Models
arXiv:2604.21036v1 発表タイプ:新規 要約:Stable Diffusion や DALL-E など、テキストから画像生成(T2I)モデルは生成 AI を広く普及させましたが、最近の研究ではこれらのシステムが社会的バイアスを複製しており、特に職業における人口統計グループの描写において顕著であることが示されています。「医師」や「CEO」といったプロンプトはしばしば明るい肌色の出力...
Original: arXiv:2604.21036v1 Announce Type: new Abstract: Text-to-image(T2I) models like Stable Diffusion and DALL-E have made generative AI widely accessible, yet recent studies reveal that these systems ofte...
HypEHR: クライニカルデータ階層構造を効率的にクエリ応答する電子健康記録の双曲幾何学モデル
HypEHR: Hyperbolic Modeling of Electronic Health Records for Efficient Question Answering
arXiv:2604.21027v1 Announce Type: new 摘要: 電子健康記録(EHR)による質問応答は、通常、高コストで本格的に導入が困難な LLM ベースのパイプラインによって処理されており、臨床データの階層構造を明示的に活用していない。医療オントロジーや患者の経路が双曲幾何学を示すという証拠に基づき、私々は双曲空間にコード、診療経過、質問を埋め込み、タイプに特化したポインタ...
Original: arXiv:2604.21027v1 Announce Type: new Abstract: Electronic health record (EHR) question answering is often handled by LLM-based pipelines that are costly to deploy and do not explicitly leverage the ...
動的なテストタイム計算割り当てと進化する文脈内デモンストレーション
Adaptive Test-Time Compute Allocation with Evolving In-Context Demonstrations
arXiv:2604.21018v1 発表 タイプ:新しい 要約:テストタイム計算の規模拡大はモデルのパフォーマンスを著しく向上させる可能性がありますが、既存のアプローチは静的な計算割り当てや固定された生成分布からのサンプリングに依存しています。本研究では、計算をどこに費やすかどのように生成を行うかを同時に適応させるテストタイム計算割り当てフレームワークを導入します。私らの手法は、初期のウォームア...
Original: arXiv:2604.21018v1 Announce Type: new Abstract: While scaling test-time compute can substantially improve model performance, existing approaches either rely on static compute allocation or sample fro...
Deep FinResearch Bench: AI による専門的金融投資研究の実施能力を検証する
Deep FinResearch Bench: Evaluating AI's Ability to Conduct Professional Financial Investment Research
arXiv:2604.21006v1 Announce Type: new 本文書では、金融投資研究におけるディープリサーチ (DR) エージェントの汎用かつ包括的な評価枠組みとして、Deep FinResearch Bench を提案する。本ベンチマークは、レポートの質に関する以下の 3 つの次元を検証する:1) 論理的厳密性、2) 定量的予測および評価精度、3) 主張の信頼性と検証可能性。特に...
Original: arXiv:2604.21006v1 Announce Type: new Abstract: We introduce Deep FinResearch Bench, a practical and comprehensive evaluation framework for deep research (DR) agents in financial investment research....
最後にビルドするハネッサム:自動化されたハネッサムの設計を可能にする自動進化フレームワーク
The Last Harness You'll Ever Build
arXiv:2604.21003v1 Announce Type: new 要約:AI エージェントは、数十回のクリックとフォーム入力が必要な企業向け Web アプリケーションをナビゲートし、検索、抽出、合成にまたがる多段階研究パイプラインを調整し、未知のリポジトリでのコードレビューを自動化し、高度なドメイン知識を要する顧客の Eskalation(エスカレーション)処理を処理するよう、複雑で特...
Original: arXiv:2604.21003v1 Announce Type: new Abstract: AI agents are increasingly deployed on complex, domain-specific workflows -- navigating enterprise web applications that require dozens of clicks and f...
Value-Conflict Diagnostics Reveals Widespread Alignment Faking in Language Models
Value-Conflict Diagnostics Reveal Widespread Alignment Faking in Language Models
arXiv:2604.20995v1 Announce Type: new Abstract: "Alignment faking", whereby a model appears compliant with developer policy under monitoring but reverts to its own preferences when unobserved, is a t...
Original: arXiv:2604.20995v1 Announce Type: new Abstract: Alignment faking, where a model behaves aligned with developer policy when monitored but reverts to its own preferences when unobserved, is a concernin...
長期タスクのための協調進化型 LLM 意思決定エージェントとスキルバンクエージェント
Co-Evolving LLM Decision and Skill Bank Agents for Long-Horizon Tasks
arXiv:2604.20987v1 Announce Type: new 要約:長期到達性の相互作用環境は、エージェントのスキル使用能力を評価するためのテストベッドです。これらの環境では、多段階の推理、多数の時間ステップにわたる複数のスキルの連鎖、そして遅延報酬と部分観測下での堅牢な意思決定が求められます。ゲームは、エージェントのスキル使用能力を評価するための良いテストベッドです。大規模言語モデ...
Original: arXiv:2604.20987v1 Announce Type: new Abstract: Long horizon interactive environments are a testbed for evaluating agents skill usage abilities. These environments demand multi step reasoning, the ch...
合意の罠からの脱却:ルール支配型 AI の評価における正当性シグナル
Escaping the Agreement Trap: Defensibility Signals for Evaluating Rule-Governed AI
arXiv:2604.20972v1 発表タイプ:新規 概要:コンテンツモデレーションシステムは、通常、人間のラベルとの一致率によって評価されています。ただし、ルール支配型の環境ではこの仮定が成立しなくなります。複数の決定は管理方針と論理的に一致し得、一致指標は有効な決定を懲罰し、曖昧さを誤ってエラーと特性づける―これを「合意の罠」と呼ばれます。我々は評価を「方針に基づく正し」として形式化し、正当...
Original: arXiv:2604.20972v1 Announce Type: new Abstract: Content moderation systems are typically evaluated by measuring agreement with human labels. In rule-governed environments this assumption fails: multi...
軍事作戦用の AI ベースの自動作戦計画生成システムのアーキテクチャ
Architecture of an AI-Based Automated Course of Action Generation System for Military Operations
arXiv:2604.20862v1 発表タイプ: 新しい 要約: 作戦計画 (CoA) 自動化システムは将来の戦闘において不可欠な要素である。機動速度の上昇、監視範囲の拡大、そして兵器射程の伸びによる運用領域の拡大に伴い、従来型の人間が主導する作戦計画はますます困難なものとなってきた。したがって、AI ベースの自動化された作戦計画システムの開発はますます必要不可欠である。その結果、いくつかの国...
Original: arXiv:2604.20862v1 Announce Type: new Abstract: The automation system for Course of Action (CoA) planning is an essential element in future warfare. As maneuver speeds increase, surveillance ranges e...
LLM コード・オブ・ザグロフを用いた Mamba-SSM による特徴選択:忠実性を意識した生物マーカー発見
Mamba-SSM with LLM Reasoning for Feature Selection: Faithfulness-Aware Biomarker Discovery
arXiv:2604.14334v2 Announce Type: replace-cross 要約:深層学習の配列モデルから得られる勾配感度解析は、効率的に候補の生物マーカーを表面化しますが、得られる遺伝子リストは、後続分類器の性能を低下させる組織組成の混同因子に汚染されている可能性があります。本研究では、LLM のコード・オブ・ザグロフ(CoT)推論がこれらの混同因子をフィルタリングできるか、...
Original: arXiv:2604.14334v2 Announce Type: replace-cross Abstract: Gradient saliency from deep sequence models surfaces candidate biomarkers efficiently, but the resulting gene lists can be contaminated by ti...
液体アンテナを支援したフルダップルネットワークにおける空中マルチファンクショナル RIS:自己最適化ハイブリッド深層強化学習アプローチ
Aerial Multi-Functional RIS in Fluid Antennas-Aided Full-Duplex Networks: A Self-Optimized Hybrid Deep Reinforcement Learning Approach
arXiv:2604.14309v2 Announce Type: replace-cross 要旨:第六世代(6G)ネットワークのデータトラフィック要求の高さに対応するために、本論文は自律空中車両(AAV)とマルチファンクショナルリコギエントインテリジェントサーフェース(MF-RIS)を統合し、流体アンテナ(FA)支援フルダップル(FD)ネットワークにおける AM-RIS とする新しいアーキテク...
Original: arXiv:2604.14309v2 Announce Type: replace-cross Abstract: To address high data traffic demands of sixth-generation (6G) networks, this paper proposes a novel architecture that integrates autonomous a...