Back to list
arxiv_cs_cv 2026年4月20日

TableSeq: 構造、内容、レイアウトの統一的生成

TableSeq: Unified Generation of Structure, Content, and Layout

Translated: 2026/4/20 10:44:50
table-segmentationsequence-generationocr-freetable-layoutdeep-learning

Japanese Translation

arXiv:2604.16070v1 発表タイプ:新規 要旨:TableSeq は、画像のみで動作し、エンドツーエンドである joint table structure recognition(同時構造認識)、content recognition(内容認識)、および cell localization(セル位置検出)のフレームワークです。このモデルは、これらのタスクを単一のスクリプト生成問題として形式化します。一つのプロセッサーが、HTML タグ、セルテキスト、および離散化された座標トークンの相互に交错されたストリームを生成し、論理的構造、テキスト内容、およびセル幾何学を単一の自律再帰的配列内で統合します。この設計は、外部 OCR、補助プロセッサー、および複雑なマルチステージの後処理を回避します。TableSeq は、軽量な高分解能な FCN-H16 エンコーダー、ミニマルな構造事前知識ヘッダー、および単一レイヤーのトランスフォーマー・エンコーダーを組み合わせ、コンパクトなアーキテクチャを構築しました。これは、困難なレイアウトでも効率的に動作します。標準ベンチマークにおいて、TableSeq は比較可能か最善の性能を達成し、同時にアーキテクチャの単純さを保持します。PubTabNet 上で 95.23 TEDS / 96.83 S-TEDS、FinTabNet 上で 97.45 TEDS / 98.69 S-TEDS、SciTSR における CAR プロトコルで 99.79 / 99.54 / 99.66 の精度/再現性/F1 スコアを達成します。GriTS 下での PubTables-1M においては競争力のある結果を示しています。TSR/TCR の範囲を超えて、同じスクリプトインターフェースはヘッダーの要件なしにインデックスベースのテーブルクエリーに拡張され、最も良い IRDR スコアを達成し、競争力のある ICDR/ICR 性能を示します。さらに、我々はより高速なブロック分割解凍のためのマルチトークン予測の研究を行い、それは精度の有限な低下にもかかわらず推論遅延を削減することを示しました。全体として、TableSeq は統一的なテーブル認識のための実用的かつ再現性の高い単一ストリーム基準を提供し、ソースコードは https://github.com/hamdilaziz/TableSeq に公開されます。

Original Content

arXiv:2604.16070v1 Announce Type: new Abstract: We present TableSeq, an image-only, end-to-end framework for joint table structure recognition, content recognition, and cell localization. The model formulates these tasks as a single sequence-generation problem: one decoder produces an interleaved stream of \texttt{HTML} tags, cell text, and discretized coordinate tokens, thereby aligning logical structure, textual content, and cell geometry within a unified autoregressive sequence. This design avoids external OCR, auxiliary decoders, and complex multi-stage post-processing. TableSeq combines a lightweight high-resolution FCN-H16 encoder with a minimal structure-prior head and a single-layer transformer encoder, yielding a compact architecture that remains effective on challenging layouts. Across standard benchmarks, TableSeq achieves competitive or state-of-the-art results while preserving architectural simplicity. It reaches 95.23 TEDS / 96.83 S-TEDS on PubTabNet, 97.45 TEDS / 98.69 S-TEDS on FinTabNet, and 99.79 / 99.54 / 99.66 precision / recall / F1 on SciTSR under the CAR protocol, while remaining competitive on PubTables-1M under GriTS. Beyond TSR/TCR, the same sequence interface generalizes to index-based table querying without task-specific heads, achieving the best IRDR score and competitive ICDR/ICR performance. We also study multi-token prediction for faster blockwise decoding and show that it reduces inference latency with only limited accuracy degradation. Overall, TableSeq provides a practical and reproducible single-stream baseline for unified table recognition, and the source code will be made publicly available at https://github.com/hamdilaziz/TableSeq.