ESG-Bench: 환각 현상 완화를 위한 장문 ESG 보고서 벤치마킹
ESG-Bench: Benchmarking Long-Context ESG Reports for Hallucination Mitigation
기업의 사회적 책임이 환경, 사회, 지배구조(ESG) 기준을 점점 더 많이 포함함에 따라, ESG 보고서는 많은 지역에서 법적 요구 사항이 되었으며 기업의 지속 가능성 실천을 기록하고 장기적 및 윤리적 성과를 평가하는 핵심적인 수단이 되었습니다. 그러나 ESG 공개의 길이와 복잡성으로 인해 해석이 어렵고 분석을 신뢰성 있게 자동화하기 어렵습니다. 확장 가능하고 신뢰할 수 있는 분석을 지원하기 위해, 본 논문에서는 ESG 보고서 이해 및 대규모 언어 모델(LLM)의 환각 현상 완화를 위한 벤치마크 데이터셋인 ESG-Bench를 소개합니다. ESG-Bench는 실제 ESG 보고서 맥락에 기반한 인간이 주석을 단 질문-답변(QA) 쌍으로 구성되어 있으며, 모델의 출력이 사실에 근거한지 또는 환각인지 나타내는 세분화된 레이블을 포함합니다. ESG 보고서 분석을 검증 가능성 제약 조건이 있는 QA 작업으로 정의함으로써, LLM이 ESG 콘텐츠를 추출하고 추론하는 능력을 체계적으로 평가할 수 있으며, 사회적으로 민감하고 규정 준수가 중요한 환경에서 환각 현상을 완화하는 새로운 활용 사례를 제공합니다. 본 연구에서는 ESG-Bench를 사용하여 CoT(Chain-of-Thought) 주석이 달린 근거를 기반으로 여러 최첨단 LLM에 대한 작업별 CoT 프롬프팅 전략을 설계하고 미세 조정했습니다. 실험 결과, CoT 기반 방법은 표준 프롬프팅 및 직접 미세 조정보다 환각 현상을 줄이는 데 크게 효과적이며, 이러한 효과는 ESG 도메인 외의 기존 QA 벤치마크로도 이전될 수 있음을 보여줍니다.
As corporate responsibility increasingly incorporates environmental, social, and governance (ESG) criteria, ESG reporting is becoming a legal requirement in many regions and a key channel for documenting sustainability practices and assessing firms' long-term and ethical performance. However, the length and complexity of ESG disclosures make them difficult to interpret and automate the analysis reliably. To support scalable and trustworthy analysis, this paper introduces ESG-Bench, a benchmark dataset for ESG report understanding and hallucination mitigation in large language models (LLMs). ESG-Bench contains human-annotated question-answer (QA) pairs grounded in real-world ESG report contexts, with fine-grained labels indicating whether model outputs are factually supported or hallucinated. Framing ESG report analysis as a QA task with verifiability constraints enables systematic evaluation of LLMs' ability to extract and reason over ESG content and provides a new use case: mitigating hallucinations in socially sensitive, compliance-critical settings. We design task-specific Chain-of-Thought (CoT) prompting strategies and fine-tune multiple state-of-the-art LLMs on ESG-Bench using CoT-annotated rationales. Our experiments show that these CoT-based methods substantially outperform standard prompting and direct fine-tuning in reducing hallucinations, and that the gains transfer to existing QA benchmarks beyond the ESG domain.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.
Log in to request an AI analysis.