Back to list
RoLegalGEC: ローマニア語の法分野向け文法誤り検出・修正データセット
RoLegalGEC: Legal Domain Grammatical Error Detection and Correction Dataset for Romanian
Translated: 2026/4/24 20:14:31
Japanese Translation
arXiv:2604.19593v2 発表タイプ:代替クロス
要約:法文書における明確かつ正確なテキストの重要性は言過ぎないため、弁護士のプロフェッショナルを支援するための文法誤り修正ツールは、法環境における潜在的な誤りを理解し、適切に修正する能力を備えていなければなりません。さらに、それは現実的な法データを使用し、同じ環境で訓練されることを隐含的に必要とします。しかし、そのようなプロセスに必要な手動アノテーションデータは、ロマネシア語の例えにすぎないニッチ分野では、あまりにも供給不足です。最も一般的なアプローチは、並行データの合成生成ですが、それはロマネシア語の文法について構造化された理解を要求します。この論文では、私たちが知る限り、初めて法分野における文法誤りの検出と修正のためのロマネシア語の並行データセット、RoLegalGEC を紹介しています。これは、法パスジャーでの誤りの 350,000 例とその誤りアノテーションを集約しています。さらに、文法誤りの検出と修正の両方に価値あるツールとしてデータセットを変換するいくつかのニューラルネットワークモデルを評価しました。これには、知識蒸留トランスフォーマー、検出のためのシーケンスタグging アーキテクチャー、そして修正のための多種多様なプレトレーニングされたテキスト〜テキストトランスフォーマーモデルが含まれています。私たちは、これらのモデルと新しい RoLegalGEC データセットのセットが、ロマネシア語のさらなる研究のためのリソース基盤を富ませると考えています。
Original Content
arXiv:2604.19593v2 Announce Type: replace-cross
Abstract: The importance of clear and correct text in legal documents cannot be understated, and, consequently, a grammatical error correction tool meant to assist a professional in the law must have the ability to understand the possible errors in the context of a legal environment, correcting them accordingly, and implicitly needs to be trained in the same environment, using realistic legal data. However, the manually annotated data required by such a process is in short supply for languages such as Romanian, much less for a niche domain. The most common approach is the synthetic generation of parallel data; however, it requires a structured understanding of the Romanian grammar. In this paper, we introduce, to our knowledge, the first Romanian-language parallel dataset for the detection and correction of grammatical errors in the legal domain, RoLegalGEC, which aggregates 350,000 examples of errors in legal passages, along with error annotations. Moreover, we evaluate several neural network models that transform the dataset into a valuable tool for both detecting and correcting grammatical errors, including knowledge-distillation Transformers, sequence tagging architectures for detection, and a variety of pre-trained text-to-text Transformer models for correction. We consider that the set of models, together with the novel RoLegalGEC dataset, will enrich the resource base for further research on Romanian.