Back to list
arxiv_cs_lg 2026年2月10日

ArcMark: Optimal Transport による multi-bit LLM ウォーミングマーク

ArcMark: Multi-bit LLM Watermark via Optimal Transport

Translated: 2026/3/15 13:05:27
llmwatermarkingmachine-learninginformation-theoreticchannel-coding

Japanese Translation

arXiv:2602.07235v1 Announce Type: new 概要:ウォーミングマークは、言語モデル(LM)の責任ある利用を促進するための重要なツールです。既存のウォーミングマークは、生成されたトークンに信号を挿入することで、LM 生成テキストを特定する(ゼロビットウォーミングマーク)か、より複雑なメッセージをエンコードする(multi-bit ウォーミングマーク)かします。最近の複数の multi-bit ウォーミングマークは、次のトークンの予測平均を変化させずにテキストに複数のビットを挿入していますが、多くの場合、ゼロビットの設置における設計原則(トークンごとに 1 ビットのエンコーディングなど)を拡張するにとどまっています。特に、multi-bit ウォーミングマークの情報理論的容量—予測平均を変化させずに挿入および検出できるトークンあたり最大のビット数—は、まだ不詳です。我々は、このギャップを解決するために、multi-bit ウォーミングマークの最初の容量 characterization を導き出しました。我々の結果は、ArcMark の設計に貢献しています:これは、特定の仮定の下で、multi-bit ウォーミングマークチャネルの容量を実現するコード理論的アプローチに基づく新しいウォーミングマーク構築です。実際には、ArcMark は、トークンあたりビットレートおよび検出精度において競合する multi-bit ウォーミングマークを上回ります。我々の作業は、LM ウォーミングマークが本質的にチャネル符号化の問題であることを示しており、ウォーミングマーク設計に対して原則的なコード理論的アプローチを開く可能性を提供します。

Original Content

arXiv:2602.07235v1 Announce Type: new Abstract: Watermarking is an important tool for promoting the responsible use of language models (LMs). Existing watermarks insert a signal into generated tokens that either flags LM-generated text (zero-bit watermarking) or encodes more complex messages (multi-bit watermarking). Though a number of recent multi-bit watermarks insert several bits into text without perturbing average next-token predictions, they largely extend design principles from the zero-bit setting, such as encoding a single bit per token. Notably, the information-theoretic capacity of multi-bit watermarking -- the maximum number of bits per token that can be inserted and detected without changing average next-token predictions -- has remained unknown. We address this gap by deriving the first capacity characterization of multi-bit watermarks. Our results inform the design of ArcMark: a new watermark construction based on coding-theoretic principles that, under certain assumptions, achieves the capacity of the multi-bit watermark channel. In practice, ArcMark outperforms competing multi-bit watermarks in terms of bit rate per token and detection accuracy. Our work demonstrates that LM watermarking is fundamentally a channel coding problem, paving the way for principled coding-theoretic approaches to watermark design.