중국 노동법 거대 언어 모델 벤치마크
Chinese Labor Law Large Language Model Benchmark
최근 거대 언어 모델(LLM)의 발전은 특정 도메인 응용 분야, 특히 법률 분야에서 상당한 진전을 이끌었습니다. 그러나 GPT-4와 같은 범용 모델은 정밀한 법률 지식, 복잡한 추론, 맥락적 민감성을 요구하는 전문 하위 도메인에서는 어려움을 겪는 경우가 많습니다. 이러한 한계를 해결하기 위해, 우리는 중국 노동법에 특화된 법률 거대 언어 모델인 LabourLawLLM을 제안합니다. 또한 법 조항 인용, 지식 기반 질의응답, 판례 분류, 보상금 계산, 개체명 인식, 법률 사례 분석 등 다양한 노동법 과제를 포괄하는 종합 벤치마크인 LabourLawBench를 소개합니다. 우리의 평가 프레임워크는 객관적 지표(예: ROUGE-L, 정확도, F1, soft-F1)와 GPT-4 채점에 기반한 주관적 평가를 결합합니다. 실험 결과, LabourLawLLM은 모든 과제 범주에서 범용 모델 및 기존의 법률 특화 LLM보다 일관되게 우수한 성능을 보이는 것으로 나타났습니다. 노동법을 넘어, 우리의 방법론은 다른 법률 하위 분야에서 특화된 LLM을 구축하기 위한 확장 가능한 접근 방식을 제공하여, 법률 AI 애플리케이션의 정확성, 신뢰성 및 사회적 가치를 향상시킵니다.
Recent advances in large language models (LLMs) have led to substantial progress in domain-specific applications, particularly within the legal domain. However, general-purpose models such as GPT-4 often struggle with specialized subdomains that require precise legal knowledge, complex reasoning, and contextual sensitivity. To address these limitations, we present LabourLawLLM, a legal large language model tailored to Chinese labor law. We also introduce LabourLawBench, a comprehensive benchmark covering diverse labor-law tasks, including legal provision citation, knowledge-based question answering, case classification, compensation computation, named entity recognition, and legal case analysis. Our evaluation framework combines objective metrics (e.g., ROUGE-L, accuracy, F1, and soft-F1) with subjective assessment based on GPT-4 scoring. Experiments show that LabourLawLLM consistently outperforms general-purpose and existing legal-specific LLMs across task categories. Beyond labor law, our methodology provides a scalable approach for building specialized LLMs in other legal subfields, improving accuracy, reliability, and societal value of legal AI applications.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.