2031 articles
感情支援会話における感情流動言語モデル (AFlow)
Affective Flow Language Model for Emotional Support Conversation
深い感情を反映した大規模言語モデル (LLM) を応用する心のサポート会話 (ESC) の研究が進んでいます。しかし、複数のターンを介した効率的な支援はまだ困難です。これは、現在の関連付諸ルールが結果レベルの信号に依存し、 intermediary テクニックの選択に十分な監督を提供できないためです。この為、我々の論文では、言語モデル(AFlow)というフレームワークを開発しました。これは、一部と...
Original: arXiv:2602.08826v1 Announce Type: cross Abstract: Large language models (LLMs) have been widely applied to emotional support conversation (ESC). However, complex multi-turn support remains challengin...
WildReward: ワ wild interactions からの報酬モデルの学習
WildReward: Learning Reward Models from In-the-Wild Human Interactions
報酬モデル (RMs) は、大規模言語モデル (LLMs) のトレーニングには欠かせない要素ですが、通常は大きなスケールの人間による事前訓練した偏好ペアを基にしています。大規模な LLMS の広範な実装により、野生での人との相互作用が含意的な報酬サインの丰富的な資源として出現しました。この現実は次の問いを提起します:我々は実際の場所における人との相互作用から報酬モデルを開発することは可能でしょうか...
Original: arXiv:2602.08829v1 Announce Type: cross Abstract: Reward models (RMs) are crucial for the training of large language models (LLMs), yet they typically rely on large-scale human-annotated preference p...
どのような名前が出てきますか?LLMに基づくアカデミック専門家推奨のベンチマークと介入型評価
Whose Name Comes Up? Benchmarking and Intervention-Based Auditing of LLM-Based Scholar Recommendation
大きな言語モデル (LLMs) は、 increasingly 学術的専門家の推薦に使用され始めています。 現在の審査には、基本的に単独でモデルの出力に焦点を当てていますが、その結果多くのユーザの推論時点での介入を無視します。そのため、誤りのような拒否や非人間的な推測、不均一なカバーは、モデルの選択またはデプロイメントの決定によるかどうかが不明確です。 LLMScholarBench と名付けられ...
Original: arXiv:2602.08873v1 Announce Type: cross Abstract: Large language models (LLMs) are increasingly used for academic expert recommendation. Existing audits typically evaluate model outputs in isolation,...
DeepQuali: 大規模言語モデルを用いたUser Storyの品質評価の最初の結果
DeepQuali: Initial results of a study on the use of large language models for assessing the quality of user stories
大規模な言語モデル (LLM) を使用してソフトウェアエンジニアリングで広く利用されることが増えています。これは主にコーディングタスクに関連していますが、要求工程 - 特別に要件評価に関してはまだ限られた適用しか目指されていません。生成された人工知能の(GAI)の大規模言語モデル (LLM) を使用して要件を抽出したり変換したり分類するなどの要件は用いましたが、品質評価を行うことがなかったのです。...
Original: arXiv:2602.08887v1 Announce Type: cross Abstract: Generative artificial intelligence (GAI), specifically large language models (LLMs), are increasingly used in software engineering, mainly for coding...
OmniReview: 大规模バーゼルラインとLLM強化フレームワークによる実在感溢れるレビュアー推薦
OmniReview: A Large-scale Benchmark and LLM-enhanced Framework for Realistic Reviewer Recommendation
大学研究者レビューは、學術的な承認の基礎となったが、データと方策でのいくつかの課題を抱えています。データ面から言うと、現存した研究成果はスケールの大きいと認められるvalidatedバーゼルライン及び無視的に評価指標が充足されておらず、それが現実世界の編集プロセスを反映していません。そこで OmniReview という総合的なデータセットを開発しました。これは多源学術プラットフォームからの整合性確...
Original: arXiv:2602.08896v1 Announce Type: cross Abstract: Academic peer review remains the cornerstone of scholarly validation, yet the field faces some challenges in data and methods. From the data perspect...
gesturing towards abstraction: マルチモード conventionの形成におけるコラボレーション的な物理的タスク
Gesturing Toward Abstraction: Multimodal Convention Formation in Collaborative Physical Tasks
人間の知能の一典型的な特徴は、何度も協力することで無秩序にコン conventionsを作り出し、共有目標を効率的に達成することです。我々は、コミュニケーション戦略が重複した協力によりどのように変化するかについて調査しました。これを達成するために、オンラインでの不規則な研究(n=98)で自然言語を使用してハイレベルの抽象を観測ししました。その後、物理的の協力を視覚化するための実験室の研究(n=40...
Original: arXiv:2602.08914v1 Announce Type: cross Abstract: A quintessential feature of human intelligence is the ability to create ad hoc conventions over time to achieve shared goals efficiently. We investig...
自動的に多言語大規模言語モデルのQuery Expansionと並行した二種類の大規模言語モデルによるRefinement
Automatic In-Domain Exemplar Construction and LLM-Based Refinement of Multi-LLM Expansions for Query Expansion
Queryの拡張は、大規模言語モデルを使った手法は有用ですが、よく選び抜かれたプロンプトや手動で選ばれたエクスマラルもしくは単一の大規模言語モデルを頻繁に使用していることが多く、それ自体が非スケーリブルです。また、ドメイン間の変化に対して敏感であるという欠点もあります。我々は、自動的にドメイン対応のQuery Expansion専用フレームワークを開発し、Drift- Aware Cluster ...
Original: arXiv:2602.08917v1 Announce Type: cross Abstract: Query expansion with large language models is promising but often relies on hand-crafted prompts, manually chosen exemplars, or a single LLM, making ...
pixelLOG:カプチーノベースのメイクァンスサーバーでのオンラインゲームプレイログ実装
pixelLOG: Logging of Online Gameplay for Cognitive Research
一般的な認知評価は、人工知能(AI)エージェントに特化した既存のフレームワークだけに対応しておらず、人間の認知機能が自然的な状況でどのように動作するかを捉えるには不十分です。我々はpixelLOGを開発しました。これがSpigotベースのメイクァンスサーバー向けに設計されました。これは一般的な認知研究用のパブリック・ベースのデータ収集フレームワークです。既存のフレームワークは単なる出力の中心に重点...
Original: arXiv:2602.08941v1 Announce Type: cross Abstract: Traditional cognitive assessments often rely on isolated, output-focused measurements that may fail to capture the complexity of human cognition in n...
離散状態空間での次概念予測は強力な言語モデルを導出します
Next Concept Prediction in Discrete Latent Space Leads to Stronger Language Models
抽象: 我たちは Next Concept Prediction (NCP) を提案しました。これは、Next Token Prediction (NTP) の上に構築されている生成前の段階であると説明します。 NCP は、複数のトークンを跨いで特定の理論的概念を予測し、したがってより困難な前処理目的を作り出します。我々のモデル、ConceptLM を、ベクトル量化を使用して隠れ状態を質化し、そし...
Original: arXiv:2602.08984v1 Announce Type: cross Abstract: We propose Next Concept Prediction (NCP), a generative pretraining paradigm built on top of Next Token Prediction (NTP). NCP predicts discrete concep...
From Obstacles to Etiquette: ロボットの社会対応パスセレクション機能への変革
From Obstacles to Etiquette: Robot Social Navigation with VLM-Informed Path Selection
人間環境での社交性を navigater( navigate)するには、碰撞しない移動経路はまだ、継続的な活動に干渉しや規範と衝突する可能性があるためだけでは不十分です。この挑戦に取り組むには、代理間の関係性分析が必要で、計画に一般的な常識的思考を組み込むことも求められます。この論文は、幾何学的計画とコンテキストに直結した社会的な概念を組み込んだロボットの社会対応 Navigationフレームワー...
Original: arXiv:2602.09002v1 Announce Type: cross Abstract: Navigating socially in human environments requires more than satisfying geometric constraints, as collision-free paths may still interfere with ongoi...
CIC-Trap4Phish: Multi-formatデータセットの統合化されたデタップおよびクシティングファイルの判定
CIC-Trap4Phish: A Unified Multi-Format Dataset for Phishing and Quishing Attachment Detection
悪意のあるメールと関連付けられた偽装は、サイバー攻撃者の最大の攻撃形態の一つであり、多くの場合、攻撃者は誘拐的な電子メールと共に有害な添付ファイルを使用してユーザーを間接的に_sensitive情報を提供しまたはマルウェアをインストールする手段を使いシステム全体を攻撃することができます。また、不正な電子メールに対して強化された防御があるにも関わらず、悪意のあるメールを悪用するための様々な形で攻撃者...
Original: arXiv:2602.09015v1 Announce Type: cross Abstract: Phishing attacks represents one of the primary attack methods which is used by cyber attackers. In many cases, attackers use deceptive emails along w...