MOSLD-Bench: 텍스트 분류를 위한 다국어 개방형 학습 및 발견 벤치마크
MOSLD-Bench: Multilingual Open-Set Learning and Discovery Benchmark for Text Categorization
개방형 학습 및 발견(OSLD)은 새로운(알려지지 않은) 클래스의 샘플이 테스트 시간에 나타날 수 있는 어려운 머신러닝 과제입니다. 이는 새로운 클래스가 사전에 알려지지 않는 제로샷 학습의 일반화된 형태로, 새로운 클래스를 능동적으로 발견하는 것을 포함합니다. 제로샷 학습은 특히 사전 학습된 언어 모델의 등장으로 인해 텍스트 분류에서 광범위하게 연구되었지만, 개방형 학습 및 발견은 텍스트 도메인에서 비교적 새로운 연구 분야입니다. 이에 따라, 우리는 주제별 텍스트 분류를 위한 최초의 다국어 개방형 학습 및 발견(MOSLD) 벤치마크를 소개합니다. 이 벤치마크는 12개 언어에 걸쳐 96만 개의 데이터 샘플로 구성되어 있습니다. 벤치마크를 구축하기 위해, 우리는 (i) 기존 데이터셋을 재구성하고 (ii) 뉴스 도메인에서 새로운 데이터 샘플을 수집했습니다. 또한, 우리는 OSLD 작업을 위한 새로운 프레임워크를 제안하며, 이 프레임워크는 여러 단계를 통합하여 새로운 클래스를 지속적으로 발견하고 학습합니다. 우리는 자체 모델을 포함한 여러 언어 모델을 평가하여 향후 연구의 참고 자료로 사용될 수 있는 결과를 얻었습니다. 벤치마크는 https://github.com/Adriana19Valentina/MOSLD-Bench 에서 공개됩니다.
Open-set learning and discovery (OSLD) is a challenging machine learning task in which samples from new (unknown) classes can appear at test time. It can be seen as a generalization of zero-shot learning, where the new classes are not known a priori, hence involving the active discovery of new classes. While zero-shot learning has been extensively studied in text classification, especially with the emergence of pre-trained language models, open-set learning and discovery is a comparatively new setup for the text domain. To this end, we introduce the first multilingual open-set learning and discovery (MOSLD) benchmark for text categorization by topic, comprising 960K data samples across 12 languages. To construct the benchmark, we (i) rearrange existing datasets and (ii) collect new data samples from the news domain. Moreover, we propose a novel framework for the OSLD task, which integrates multiple stages to continuously discover and learn new classes. We evaluate several language models, including our own, to obtain results that can be used as reference for future work. We release our benchmark at https://github.com/Adriana19Valentina/MOSLD-Bench.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.
Log in to request an AI analysis.