Back to list
PipeMFL-240K:パイプライン Magnetic Flux Leakage(MFL)イメージングにおける物体検出のための大規模データセットとベンチマーク
PipeMFL-240K: A Large-scale Dataset and Benchmark for Object Detection in Pipeline Magnetic Flux Leakage Imaging
Translated: 2026/2/11 13:47:03
Japanese Translation
arXiv:2602.07044v1 アナウンスタイプ: new
概要:パイプラインの健全性は産業の安全性や環境保護にとって極めて重要であり、Magnetic Flux Leakage(MFL)検出は主要な非破壊検査技術の一つです。MFLの解釈自動化に対するディープラーニングの有望性にもかかわらず、信頼できるモデルの進展は大規模な公開データセットとベンチマークの欠如により制約されており、公平な比較や再現可能な評価が困難でした。
本稿では、PipeMFL-240K を紹介します。PipeMFL-240K はパイプライン MFL の擬似カラー画像における複雑な物体検出のための、大規模で精緻にアノテーションされたデータセット兼ベンチマークです。PipeMFL-240K は実運用検査の複雑さを反映しており、以下のような複数の固有の課題を提示します:(i)12カテゴリにわたる極めてロングテールな分布、(ii)数ピクセルしか占めないことが多い微小なオブジェクトの高割合、(iii)クラス内変動の大きさ。
データセットは240,320枚の画像と191,530件の高品質なbounding-boxアノテーションを含み、約1,480 kmに及ぶ11本のパイプラインから収集されました。ベースライン確立のため、最先端の物体検出器を用いた大規模な実験を行いました。結果は、現行の検出器がMFLデータの本質的特性に対して依然として苦戦しており、改善の余地が大きいことを示しています。一方で、PipeMFL-240K は信頼できるかつ挑戦的なテストベッドを提供し、今後の研究推進に寄与します。
本データセットは、パイプライン MFL 検査に関するこの規模と範囲での最初の公開データセットおよびベンチマークであり、効率的なパイプライン診断や保守計画のための重要な基盤を提供します。MFLベースのパイプライン健全性評価におけるアルゴリズム革新と再現可能な研究の加速が期待されます。
Original Content
arXiv:2602.07044v1 Announce Type: new
Abstract: Pipeline integrity is critical to industrial safety and environmental protection, with Magnetic Flux Leakage (MFL) detection being a primary non-destructive testing technology. Despite the promise of deep learning for automating MFL interpretation, progress toward reliable models has been constrained by the absence of a large-scale public dataset and benchmark, making fair comparison and reproducible evaluation difficult. We introduce \textbf{PipeMFL-240K}, a large-scale, meticulously annotated dataset and benchmark for complex object detection in pipeline MFL pseudo-color images. PipeMFL-240K reflects real-world inspection complexity and poses several unique challenges: (i) an extremely long-tailed distribution over \textbf{12} categories, (ii) a high prevalence of tiny objects that often comprise only a handful of pixels, and (iii) substantial intra-class variability. The dataset contains \textbf{240,320} images and \textbf{191,530} high-quality bounding-box annotations, collected from 11 pipelines spanning approximately \textbf{1,480} km. Extensive experiments are conducted with state-of-the-art object detectors to establish baselines. Results show that modern detectors still struggle with the intrinsic properties of MFL data, highlighting considerable headroom for improvement, while PipeMFL-240K provides a reliable and challenging testbed to drive future research. As the first public dataset and the first benchmark of this scale and scope for pipeline MFL inspection, it provides a critical foundation for efficient pipeline diagnostics as well as maintenance planning and is expected to accelerate algorithmic innovation and reproducible research in MFL-based pipeline integrity assessment.