Back to list
言語情報処理の開放的な探orの方向性:低リソースNLP
Towards Open-Ended Discovery for Low-Resource NLP
Translated: 2026/2/14 8:05:50
Japanese Translation
自然言語処理(NLP)は、対象言語が不足している言語に対しても,事実上の資源に制約を受け続けています。このため、文書データや規格化された記号体系の欠如とスケール可能な件出管財パイプラインが関連する点からです。最近の大規模な言語モデルによる技術的な開発は多国語への統合転送を改善しましたが、過疎コミュニティのために彼らが必要としている大人数の、前から集められたデータに大きく依存しているため完全にアクセス不可能でした。私たちにとってのこの立場提要是オープンな終了とインタラクティブ言語の発見へと Paradigmという移行を唱えるべきであり、AIシステムは人間との会話を介して静止的なデータセットでは学習することなく新しい言語を取り扱います。我々は言語技術開発における将来的価値、特に低リソースと文書記録が少ない言語に関して言えば、完全なパッシブのデータ収集パイプラインからインタラクティブで不安定性に基づく発見に移行しなければならないと考えています。我々は将来可能な対話だけでなく, ハーネス信号とスピーカーからの信頼感サインを含む、模型のエピステミック不安定さからハーヘンスコアと人類とのコンパレーターを含む合意のためのフレームを作ることで、互換性に基づく学習がディスクリプションに従って動くまで自動化の一部です。我々はAIと人々との間の相互作用と共同のモデルを作り出すという人の中心的な人工知能の原則を強調します
Original Content
arXiv:2510.01220v2 Announce Type: replace-cross
Abstract: Natural Language Processing (NLP) for low-resource languages remains fundamentally constrained by the lack of textual corpora, standardized orthographies, and scalable annotation pipelines. While recent advances in large language models have improved cross-lingual transfer, they remain inaccessible to underrepresented communities due to their reliance on massive, pre-collected data and centralized infrastructure. In this position paper, we argue for a paradigm shift toward open-ended, interactive language discovery, where AI systems learn new languages dynamically through dialogue rather than static datasets. We contend that the future of language technology, particularly for low-resource and under-documented languages, must move beyond static data collection pipelines toward interactive, uncertainty-driven discovery, where learning emerges dynamically from human-machine collaboration instead of being limited to pre-existing datasets. We propose a framework grounded in joint human-machine uncertainty, combining epistemic uncertainty from the model with hesitation cues and confidence signals from human speakers to guide interaction, query selection, and memory retention. This paper is a call to action: we advocate a rethinking of how AI engages with human knowledge in under-documented languages, moving from extractive data collection toward participatory, co-adaptive learning processes that respect and empower communities while discovering and preserving the world's linguistic diversity. This vision aligns with principles of human-centered AI, emphasizing interactive, cooperative model building between AI systems and speakers.