Back to list
arxiv_cs_cv 2026年2月10日

GlobalWasteData: 頑健な廃棄物分類と環境監視のための大規模統合データセット

GlobalWasteData: A Large-Scale, Integrated Dataset for Robust Waste Classification and Environmental Monitoring

Translated: 2026/3/15 18:03:18
globalwastedatawaste-classificationmachine-learningenvironmental-monitoringdataset-archives

Japanese Translation

arXiv:2602.07463v1 Announce Type: new Abstract: 廃棄物の増加は、多種多様な廃棄物に対して効率的な分別技術を必要とする環境問題です。この目的のためには、自動化された廃棄物分類システムが用いられています。これらの人工知能(AI)モデルの効果は、分類アルゴリズムのトレーニングと解析の基盤となる公共データセットの品質とアクセス可能性に依存しています。いくつかの公共の廃棄物分類データセットが存在しますが、それらは依然として断片的で不整合であり、特定の環境に偏っています。クラス名の違い、アノテーション形式の差異、画像条件、そしてクラス分布の違いにより、これらのデータセットを結合したり、実世界のシナリオに良好に汎化できるモデルを訓練したりするのが困難です。これらの問題を解決するために、我々は 14 の主要カテゴリーにわたり 89,807 枚の画像を含む大規模なデータセットである GlobalWasteData(GWD)アーカイブを導入します。この新しい統合された GWD アーカイブは、複数の公共データセットを単一の統一リソースにマージして構築されました。この GWD アーカイブは一貫したラベリング、改善されたドメインの多様性、そしてよりバランスの取られたクラス表現を提供し、頑健で汎用性のある廃棄物認識モデルの開発を可能にします。加えて、品質フィルター、重複除去、メタデータの生成などの追加のプリプロセス手順により、データセットの信頼性がさらに向上しています。総合的に判断すると、このデータセットは環境監視、リサイクル自動化、廃棄物識別における機械学習(ML)アプリケーションに堅固な基盤を提供し、将来の研究と再現性を促進するために公開されています。

Original Content

arXiv:2602.07463v1 Announce Type: new Abstract: The growing amount of waste is a problem for the environment that requires efficient sorting techniques for various kinds of waste. An automated waste classification system is used for this purpose. The effectiveness of these Artificial Intelligence (AI) models depends on the quality and accessibility of publicly available datasets, which provide the basis for training and analyzing classification algorithms. Although several public waste classification datasets exist, they remain fragmented, inconsistent, and biased toward specific environments. Differences in class names, annotation formats, image conditions, and class distributions make it difficult to combine these datasets or train models that generalize well to real world scenarios. To address these issues, we introduce the GlobalWasteData (GWD) archive, a large scale dataset of 89,807 images across 14 main categories, annotated with 68 distinct subclasses. We compile this novel integrated GWD archive by merging multiple publicly available datasets into a single, unified resource. This GWD archive offers consistent labeling, improved domain diversity, and more balanced class representation, enabling the development of robust and generalizable waste recognition models. Additional preprocessing steps such as quality filtering, duplicate removal, and metadata generation further improve dataset reliability. Overall, this dataset offers a strong foundation for Machine Learning (ML) applications in environmental monitoring, recycling automation, and waste identification, and is publicly available to promote future research and reproducibility.