PLawBench: 실제 법률 실무 환경에서 LLM을 평가하기 위한 기준 기반 벤치마크
PLawBench: A Rubric-Based Benchmark for Evaluating LLMs in Real-World Legal Practice
대규모 언어 모델(LLM)이 법률 분야의 특정 작업에 점점 더 많이 활용됨에 따라, 실제 환경에서 법률 업무를 수행하는 LLM의 능력을 평가하는 것이 중요해졌습니다. 그러나 기존의 법률 벤치마크는 단순화되고 표준화된 작업에 의존하여 실제 법률 실무의 모호성, 복잡성 및 추론 요구 사항을 제대로 반영하지 못합니다. 또한, 이전의 평가에서는 종종 세부적인 법률 추론을 명시적으로 평가하지 않고, 거칠고 단일 차원의 지표를 사용했습니다. 이러한 한계점을 해결하기 위해, 실제 법률 실무 시나리오에서 LLM을 평가하도록 설계된 실용 법률 벤치마크인 PLawBench를 소개합니다. PLawBench는 실제 법률 업무 흐름을 기반으로 하며, 세 가지 작업 범주(공공 법률 상담, 실무 사례 분석, 법률 문서 생성)를 통해 법률 실무자의 핵심 프로세스를 모델링합니다. 이러한 작업은 모델이 법적 문제와 주요 사실을 식별하고, 체계적인 법률 추론을 수행하며, 법적으로 일관성 있는 문서를 생성하는 능력을 평가합니다. PLawBench는 13가지 실제 법률 시나리오에 걸쳐 850개의 질문으로 구성되어 있으며, 각 질문은 전문가가 설계한 평가 기준을 동반하여 약 12,500개의 세부 평가 항목을 제공합니다. 인간 전문가의 판단과 일치하도록 설계된 LLM 기반 평가기를 사용하여 10개의 최첨단 LLM을 평가했습니다. 실험 결과는 현재 LLM의 세부적인 법률 추론 능력에 상당한 한계가 있음을 보여주며, 향후 법률 LLM의 평가 및 개발을 위한 중요한 방향을 제시합니다. 데이터는 다음 위치에서 확인할 수 있습니다: https://github.com/skylenage/PLawbench.
As large language models (LLMs) are increasingly applied to legal domain-specific tasks, evaluating their ability to perform legal work in real-world settings has become essential. However, existing legal benchmarks rely on simplified and highly standardized tasks, failing to capture the ambiguity, complexity, and reasoning demands of real legal practice. Moreover, prior evaluations often adopt coarse, single-dimensional metrics and do not explicitly assess fine-grained legal reasoning. To address these limitations, we introduce PLawBench, a Practical Law Benchmark designed to evaluate LLMs in realistic legal practice scenarios. Grounded in real-world legal workflows, PLawBench models the core processes of legal practitioners through three task categories: public legal consultation, practical case analysis, and legal document generation. These tasks assess a model's ability to identify legal issues and key facts, perform structured legal reasoning, and generate legally coherent documents. PLawBench comprises 850 questions across 13 practical legal scenarios, with each question accompanied by expert-designed evaluation rubrics, resulting in approximately 12,500 rubric items for fine-grained assessment. Using an LLM-based evaluator aligned with human expert judgments, we evaluate 10 state-of-the-art LLMs. Experimental results show that none achieves strong performance on PLawBench, revealing substantial limitations in the fine-grained legal reasoning capabilities of current LLMs and highlighting important directions for future evaluation and development of legal LLMs. Data is available at: https://github.com/skylenage/PLawbench.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.