Back to list
大型言語モデルからの税の観点:増加する税の罰を合法と認める例のケーススタディ
Taxation Perspectives from Large Language Models: A Case Study on Additional Tax Penalties
Translated: 2026/2/14 7:12:54
Japanese Translation
どのような能力を持っているであろうが、巨大な言語モデル(LLMs)は税理関係においてでしょうか。法律の専門家として多くの研究が進行しているにもかかわらず、税に関する研究自体は限定的です。これらの研究では使用されているデータセットも再現性が低いまま、また公開オープンソースとしては発表されていません。これが問題を引き起こしているため、我々PLATと命名された新しい測定基準が設計に取り入れられたことでございます。この基準がLMMsに対し、彼らの能力を予測する税の法律において評価します。また、複雑解明のために、法的場面での応用は単純な規則適用以上の理解が要されるためにも、PLATが設定されたテストはこれらのことに関して evaluatesいます。我々の統計的な試験によりますが、LMMsの基盤的な能力は制限されるようであり、特に相反する問題に関する場合、税法だけでなく還付金状況について深い理解が必要となります。また、LLMが苦戦しているため、特別な理解が必要となる段階「AC」においてo3型モデル等も含めました。詳細のデータセットを以下のURLでお持ちいただけます:https://huggingface.co/collections/sma1-rmarud/plat-predicting-the-legitimacy-of-punitive-additional-tax
Original Content
arXiv:2503.03444v2 Announce Type: replace-cross
Abstract: How capable are large language models (LLMs) in the domain of taxation? Although numerous studies have explored the legal domain, research dedicated to taxation remains scarce. Moreover, the datasets used in these studies are either simplified, failing to reflect the real-world complexities, or not released as open-source. To address this gap, we introduce PLAT, a new benchmark designed to assess the ability of LLMs to predict the legitimacy of additional tax penalties. PLAT comprises 300 examples: (1) 100 binary-choice questions, (2) 100 multiple-choice questions, and (3) 100 essay-type questions, all derived from 100 Korean court precedents. PLAT is constructed to evaluate not only LLMs' understanding of tax law but also their performance in legal cases that require complex reasoning beyond straightforward application of statutes. Our systematic experiments with multiple LLMs reveal that (1) their baseline capabilities are limited, especially in cases involving conflicting issues that require a comprehensive understanding (not only of the statutes but also of the taxpayer's circumstances), and (2) LLMs struggle particularly with the "AC" stages of "IRAC" even for advanced reasoning models like o3, which actively employ inference-time scaling. The dataset is publicly available at: https://huggingface.co/collections/sma1-rmarud/plat-predicting-the-legitimacy-of-punitive-additional-tax