2602.24060v1 Feb 27, 2026 cs.CL

과제 복잡도가 중요하다: 감성 분석을 위한 LLM의 추론에 대한 실증 연구

Task Complexity Matters: An Empirical Study of Reasoning in LLMs for Sentiment Analysis

Donghao Huang
Donghao Huang
Citations: 95
h-index: 4
Zhaoxia Wang
Zhaoxia Wang
Citations: 58
h-index: 4

추론 능력을 갖춘 대규모 언어 모델(LLM)은 추론이 언어 작업 전반에 걸쳐 성능을 향상시킨다는 설득력 있는 주장을 뒷받침해 왔습니다. 본 연구에서는 적응형, 조건부, 강화 학습 기반 추론 아키텍처를 포함한 7가지 모델 패밀리의 504개 구성에 대해, 다양한 수준의 세분성을 가진 감성 분석 데이터셋(이진, 5개 클래스, 27개 클래스 감정)을 사용하여 이 주장을 검증합니다. 연구 결과는 추론의 효과가 작업에 따라 크게 달라지며, 기존의 가정을 뒤집는다는 것을 보여줍니다. (1) 추론은 작업 복잡도에 따라 효과가 달라지며, 이진 분류에서는 최대 -19.9 F1 점수(pp)의 성능 저하가 나타나는 반면, 27개 클래스 감정 인식에서는 최대 +16.0pp의 성능 향상이 나타납니다. (2) 증류된 추론 모델은 더 단순한 작업에서 기본 모델보다 3~18pp의 성능이 낮지만, few-shot 프롬프팅을 통해 일부 성능 회복이 가능합니다. (3) 대부분의 경우, 모델 유형에 관계없이 few-shot 학습이 zero-shot 학습보다 성능이 우수하며, 성능 향상은 아키텍처와 작업 복잡도에 따라 다릅니다. (4) Pareto 프론티어 분석 결과, 기본 모델이 효율성-성능 균형에서 우위를 점하며, 2.1배에서 54배의 계산 비용 증가에도 불구하고, 복잡한 감정 인식 작업에서만 추론이 정당화될 수 있음을 보여줍니다. 이러한 정량적 결과를 보완하기 위해, 정성적 오류 분석을 통해 추론이 단순한 작업을 체계적인 과도한 숙고를 통해 저하시킨다는 것을 밝혀냈으며, 이는 고수준의 과도한 사고 가설 이상의 메커니즘적 통찰력을 제공합니다.

Original Abstract

Large language models (LLMs) with reasoning capabilities have fueled a compelling narrative that reasoning universally improves performance across language tasks. We test this claim through a comprehensive evaluation of 504 configurations across seven model families--including adaptive, conditional, and reinforcement learning-based reasoning architectures--on sentiment analysis datasets of varying granularity (binary, five-class, and 27-class emotion). Our findings reveal that reasoning effectiveness is strongly task-dependent, challenging prevailing assumptions: (1) Reasoning shows task-complexity dependence--binary classification degrades up to -19.9 F1 percentage points (pp), while 27-class emotion recognition gains up to +16.0pp; (2) Distilled reasoning variants underperform base models by 3-18 pp on simpler tasks, though few-shot prompting enables partial recovery; (3) Few-shot learning improves over zero-shot in most cases regardless of model type, with gains varying by architecture and task complexity; (4) Pareto frontier analysis shows base models dominate efficiency-performance trade-offs, with reasoning justified only for complex emotion recognition despite 2.1x-54x computational overhead. We complement these quantitative findings with qualitative error analysis revealing that reasoning degrades simpler tasks through systematic over-deliberation, offering mechanistic insight beyond the high-level overthinking hypothesis.

0 Citations
0 Influential
2 Altmetric
10.0 Score
Original PDF

No Analysis Report Yet

This paper hasn't been analyzed by Gemini yet.

Log in to request an AI analysis.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!