SteuerLLM: 독일 세법 분석을 위한 지역 특화 대규모 언어 모델
SteuerLLM: Local specialized large language model for German tax law analysis
대규모 언어 모델(LLM)은 뛰어난 일반적인 추론 능력과 언어 이해력을 보여주지만, 엄격한 형식적 규칙, 정확한 용어, 법적 구속력을 갖는 구조로 인해 성능이 저하되는 경우가 많습니다. 세법은 이러한 과제를 대표하는 분야로, 정확한 답변을 위해서는 정확한 법 조항 인용, 체계적인 법률 논증, 그리고 엄격한 평가 기준 하에서의 수치 정확성이 요구됩니다. 본 연구에서는 실제 독일 대학 세법 시험에서 파생된 최초의 공개 벤치마크인 SteuerEx를 알고리즘적으로 생성했습니다. SteuerEx는 여섯 가지 핵심 세법 영역과 다양한 학술 수준을 포괄하는 115개의 전문가 검증된 시험 문제로 구성되어 있으며, 실제 시험 방식을 반영하는 문장 수준의 부분 점수 평가 프레임워크를 사용합니다. 또한, 본 연구에서는 실제 시험 자료를 사용하여 제어된 검색 증강 파이프라인으로 생성된 대규모 합성 데이터셋으로 학습된 독일 세법 분야에 특화된 LLM인 SteuerLLM을 제시합니다. SteuerLLM (280억 파라미터)은 동일한 크기의 일반적인 지시-튜닝 모델뿐만 아니라, 여러 경우 상당한 규모의 시스템보다도 일관되게 우수한 성능을 보여주며, 실제 법률 추론 작업에서 성능은 도메인 특화 데이터와 아키텍처 적용이 파라미터 규모보다 더 결정적인 요소임을 입증합니다. 본 연구에서 사용한 모든 벤치마크 데이터, 학습 데이터셋, 모델 가중치, 그리고 평가 코드는 공개되어, 도메인 특화 법률 인공지능 분야의 재현 가능한 연구를 지원합니다. SteuerLLM의 웹 기반 데모는 https://steuerllm.i5.ai.fau.de 에서 이용 가능합니다.
Large language models (LLMs) demonstrate strong general reasoning and language understanding, yet their performance degrades in domains governed by strict formal rules, precise terminology, and legally binding structure. Tax law exemplifies these challenges, as correct answers require exact statutory citation, structured legal argumentation, and numerical accuracy under rigid grading schemes. We algorithmically generate SteuerEx, the first open benchmark derived from authentic German university tax law examinations. SteuerEx comprises 115 expert-validated examination questions spanning six core tax law domains and multiple academic levels, and employs a statement-level, partial-credit evaluation framework that closely mirrors real examination practice. We further present SteuerLLM, a domain-adapted LLM for German tax law trained on a large-scale synthetic dataset generated from authentic examination material using a controlled retrieval-augmented pipeline. SteuerLLM (28B parameters) consistently outperforms general-purpose instruction-tuned models of comparable size and, in several cases, substantially larger systems, demonstrating that domain-specific data and architectural adaptation are more decisive than parameter scale for performance on realistic legal reasoning tasks. All benchmark data, training datasets, model weights, and evaluation code are released openly to support reproducible research in domain-specific legal artificial intelligence. A web-based demo of SteuerLLM is available at https://steuerllm.i5.ai.fau.de.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.
Log in to request an AI analysis.