오류 분해를 통한 LLM 기반 데이터 어노테이션 성능 향상
Enhancing LLM-Based Data Annotation with Error Decomposition
대규모 언어 모델(LLM)은 인간 코딩에 대한 확장 가능한 대안으로, 데이터 집약적인 분야에서 연구를 확대하는 데 기여합니다. LLM은 객관적인 어노테이션 작업에서는 거의 인간 수준의 정확도를 달성하지만, 심리적 구성과 관련된 주관적인 어노테이션 작업에서는 일관성이 떨어지고 오류가 발생하기 쉽습니다. 기존의 평가 방법은 모든 어노테이션 오류를 하나의 정렬 지표로 통합하는 경향이 있지만, 이러한 단순화된 접근 방식은 최종 분석 결과에 서로 다른 방식으로 영향을 미치는 다양한 유형의 오류를 가릴 수 있습니다. 본 연구에서는, 인간의 개입 단계를 포함하는 진단 평가 프레임워크를 제안하여 작업 고유의 모호성과 모델 기반의 부정확성을 구분하고, 어노테이션 품질을 하위 작업에 미치는 잠재적 영향 측면에서 평가합니다. 이 프레임워크를 주관적인 어노테이션에서 흔히 사용되는 순서형 어노테이션 작업에 적용하여 개선했습니다. 개선된 프레임워크는 다음과 같은 요소로 구성됩니다. (1) LLM 어노테이션 오류를 원인(모델 고유 vs. 작업 고유)과 유형(경계 모호성 vs. 개념적 오인)의 두 가지 차원으로 분류하는 진단 분류 체계; (2) LLM 어노테이션을 기반으로 작업 고유의 모호성을 추정하기 위한 간단한 인간 어노테이션 테스트; (3) 제안된 분류 체계를 따르면서 관찰된 LLM 어노테이션 오류를 분해하는 계산 방법. 본 프레임워크를 네 가지 교육 어노테이션 작업에 적용하여 개념적 타당성과 실용적 유용성을 검증했습니다. 이론적으로, 본 연구는 특정 어노테이션 작업에서 과도하게 높은 정렬이 비현실적인 이유와 단일 정렬 지표가 LLM 어노테이션의 품질을 적절하게 반영하지 못하는 이유에 대한 경험적 증거를 제공합니다. 실질적으로, 본 프레임워크는 특정 작업이 LLM 어노테이션에 적합한지 평가하고 추가적인 기술 최적화를 위한 실행 가능한 통찰력을 제공하는 저비용 진단 도구가 될 수 있습니다.
Large language models offer a scalable alternative to human coding for data annotation tasks, enabling the scale-up of research across data-intensive domains. While LLMs are already achieving near-human accuracy on objective annotation tasks, their performance on subjective annotation tasks, such as those involving psychological constructs, is less consistent and more prone to errors. Standard evaluation practices typically collapse all annotation errors into a single alignment metric, but this simplified approach may obscure different kinds of errors that affect final analytical conclusions in different ways. Here, we propose a diagnostic evaluation paradigm that incorporates a human-in-the-loop step to separate task-inherent ambiguity from model-driven inaccuracies and assess annotation quality in terms of their potential downstream impacts. We refine this paradigm on ordinal annotation tasks, which are common in subjective annotation. The refined paradigm includes: (1) a diagnostic taxonomy that categorizes LLM annotation errors along two dimensions: source (model-specific vs. task-inherent) and type (boundary ambiguity vs. conceptual misidentification); (2) a lightweight human annotation test to estimate task-inherent ambiguity from LLM annotations; and (3) a computational method to decompose observed LLM annotation errors following our taxonomy. We validate this paradigm on four educational annotation tasks, demonstrating both its conceptual validity and practical utility. Theoretically, our work provides empirical evidence for why excessively high alignment is unrealistic in specific annotation tasks and why single alignment metrics inadequately reflect the quality of LLM annotations. In practice, our paradigm can be a low-cost diagnostic tool that assesses the suitability of a given task for LLM annotation and provides actionable insights for further technical optimization.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.