2601.15267v1 Jan 21, 2026 cs.CY

법률 분야 응용에서 대규모 언어 모델 평가: 도전 과제, 방법 및 미래 전망

Evaluation of Large Language Models in Legal Applications: Challenges, Methods, and Future Directions

Haitao Li
Haitao Li
Citations: 1,053
h-index: 16
Yiqun Liu
Yiqun Liu
Citations: 1,280
h-index: 19
Qingyao Ai
Qingyao Ai
Citations: 1,310
h-index: 19
Weihang Su
Weihang Su
Citations: 610
h-index: 17
Yiran Hu
Yiran Hu
Citations: 192
h-index: 8
Huanghai Liu
Huanghai Liu
Citations: 23
h-index: 4
Chong Wang
Chong Wang
Citations: 8
h-index: 1
Kun Li
Kun Li
Citations: 56
h-index: 3
Tien-Hsuan Wu
Tien-Hsuan Wu
Citations: 75
h-index: 5
Xinran Xu
Xinran Xu
Citations: 1
h-index: 1
Siqing Huo
Siqing Huo
Citations: 95
h-index: 2
Ning Zheng
Ning Zheng
Citations: 42
h-index: 3
Siyuan Zheng
Siyuan Zheng
Citations: 4
h-index: 1
Yun Liu
Yun Liu
Citations: 90
h-index: 5
Renjun Bian
Renjun Bian
Citations: 24
h-index: 3
Charles L.A. Clarke
Charles L.A. Clarke
Citations: 9
h-index: 1
Weixing Shen
Weixing Shen
Citations: 174
h-index: 8
Ben Kao
Ben Kao
Citations: 2
h-index: 1

대규모 언어 모델(LLM)은 사법 결정 지원, 법률 실무 지원 및 일반 대중을 대상으로 하는 법률 서비스 등 다양한 법률 분야 응용에 점점 더 많이 활용되고 있습니다. LLM은 법률 지식과 업무를 처리하는 데 강력한 잠재력을 보여주지만, 실제 법률 환경에 LLM을 적용하는 것은 단순한 정확성 외에도 법률적 추론 과정의 건전성, 공정성 및 신뢰성과 같은 중요한 문제를 야기합니다. 따라서 LLM의 책임 있는 활용을 위해서는 법률 업무에서 LLM의 성능을 체계적으로 평가하는 것이 필수적입니다. 본 논문은 실제 법률 실무에 기반한 법률 업무를 위한 LLM 평가의 주요 과제를 제시합니다. 우리는 법률 분야에서 LLM의 성능을 평가하는 데 관련된 주요 어려움, 즉 결과의 정확성, 추론의 신뢰성 및 신뢰성 문제를 분석합니다. 이러한 과제들을 바탕으로, 기존의 평가 방법 및 벤치마크를 작업 설계, 데이터 세트 및 평가 지표에 따라 검토하고 분류합니다. 또한, 현재의 접근 방식이 이러한 과제들을 얼마나 잘 해결하는지, 그 한계점을 지적하고, 법률 분야의 LLM을 위한 보다 현실적이고 신뢰할 수 있으며 법률적으로 타당한 평가 프레임워크를 위한 미래 연구 방향을 제시합니다.

Original Abstract

Large language models (LLMs) are being increasingly integrated into legal applications, including judicial decision support, legal practice assistance, and public-facing legal services. While LLMs show strong potential in handling legal knowledge and tasks, their deployment in real-world legal settings raises critical concerns beyond surface-level accuracy, involving the soundness of legal reasoning processes and trustworthy issues such as fairness and reliability. Systematic evaluation of LLM performance in legal tasks has therefore become essential for their responsible adoption. This survey identifies key challenges in evaluating LLMs for legal tasks grounded in real-world legal practice. We analyze the major difficulties involved in assessing LLM performance in the legal domain, including outcome correctness, reasoning reliability, and trustworthiness. Building on these challenges, we review and categorize existing evaluation methods and benchmarks according to their task design, datasets, and evaluation metrics. We further discuss the extent to which current approaches address these challenges, highlight their limitations, and outline future research directions toward more realistic, reliable, and legally grounded evaluation frameworks for LLMs in legal domains.

1 Citations
0 Influential
9.5 Altmetric
48.5 Score

No Analysis Report Yet

This paper hasn't been analyzed by Gemini yet.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!