Back to list
arxiv_cs_lg 2026年4月24日

String における重み付けされた角度距離

A weighted angle distance on strings

Translated: 2026/4/24 20:06:00
string-metricssuffix-treedbscan-clusteringn-gramdistance-geometry

Japanese Translation

arXiv:2604.20633v1 Announce Type: cross 摘要:私たちは、指数関数的な重み $\rho^n$ を用いて、すべての $n$-グラムのカウントベクトル間の角度距離を集約することで、文字列上に多規模の距離 $d_\rho$ を定義します。DBSCAN クラスタリングにおける $d_\rho$ の性能を、編集距離および $n$-グラムのベースラインとベンチマークします。評価のための直線時間のサフィックスツリーアルゴリズムを提供し、距離空間および安定性の特徴(並びの繰り返しフールに対する堅牢性を含む)を証明し、等距変換を特徴付けます。

Original Content

arXiv:2604.20633v1 Announce Type: cross Abstract: We define a multi-scale metric $d_\rho$ on strings by aggregating angle distances between all $n$-gram count vectors with exponential weights $\rho^n$. We benchmark $d_\rho$ in DBSCAN clustering against edit and $n$-gram baselines, give a linear-time suffix-tree algorithm for evaluation, prove metric and stability properties (including robustness under tandem-repeat stutters), and characterize isometries.