Back to list
数値推論のための三進接尾語トークナイゼーションスキーム
A Triadic Suffix Tokenization Scheme for Numerical Reasoning
Translated: 2026/4/20 11:08:42
Japanese Translation
arXiv:2604.11582v2 発表タイプ: 代替クロス
要約: 標準的なサブワードトークナイゼーション手法は数値を一貫性に欠けて細分化し、これにより大規模言語モデル(LLMs)が位置情報と小数点構造を失う。これは計算と科学推論における誤りの主要な駆動力である。本稿では、桁を 3 桁のトリアドに分割し、各トリアドに明確な大きさマーカーを付注する確定的スキーム、すなわち「Triadic Suffix Tokenization(TST)」を導入する。重要なのは、このスキームが整数部分(千、百万、十億など)について接尾語と桁のオーダーに固定された 1 対 1 のマッピングを定義し、小数点深さ(接尾、千の接尾、百万の接尾など)について重複したマーカーシステムを平行して実装している点である。位置情報の推論に依存する手法とは異なり、この方法は一貫した勾配シグナルを提供し、安定した収束を確保すると期待される。提案される実装バリエーションは 2 つある:(1) 辞書ベースのアプローチは、既存の辞書に固定トークンを 10,000 個まで追加し、33 の桁のオーダー($10^{-15}$ から $10^{18}$)をカバーする;(2) 接尾マーカーアプローチは、小さな特殊トークンのセットを使用し、動的に桁のオーダーを示す。両方のアプローチとも正確な桁を保持しつつ、トークンレベルで桁のオーダー関係を透明化している。本稿では 3 桁のグループ(Triadic)に焦点を当てているが、このフレームワークは辞書最適化のために任意のグループサイズに固有的に拡張可能である。さらに、任意の精度と範囲を収めるために線形な辞書拡張を可能にする。TST はアーキテクチャ無關性(architecture-agnostic)であり、ドロップインのプレプロセリングステップとして統合可能である。実験的な検証は将来の作業に委ねられる。
Original Content
arXiv:2604.11582v2 Announce Type: replace-cross
Abstract: Standard subword tokenization methods fragment numbers inconsistently, causing large language models (LLMs) to lose positional and decimal structure - a primary driver of errors in arithmetic and scientific reasoning. We introduce Triadic Suffix Tokenization (TST), a deterministic scheme that partitions digits into three-digit triads and annotates each triad with an explicit magnitude marker. Critically, the scheme defines a fixed, one-to-one mapping between suffixes and orders of magnitude for the integer part (thousands, millions, billions, etc.) and a parallel system of replicated markers for fractional depth (tenths, thousandths, millionths, etc.). Unlike approaches that rely on positional inference, this method provides a consistent gradient signal, which should ensure stable convergence. Two implementation variants are proposed: (1) a vocabulary-based approach that adds at most 10,000 fixed tokens to an existing vocabulary, covering 33 orders of magnitude ($10^{-15}$ to $10^{18}$); and (2) a suffix-marker approach that uses a small set of special tokens to denote magnitude dynamically. Both variants preserve exact digits while making order-of-magnitude relationships transparent at the token level. While we focus on 3-digit groups (Triadic), the framework is inherently scalable to any group size for precise vocabulary optimization. Furthermore, it allows for linear vocabulary expansion to accommodate arbitrary precision and range. TST is architecture-agnostic and can be integrated as a drop-in preprocessing step. Experimental validation is deferred to future work.