2604.14128v1 Apr 15, 2026 cs.CL

LLM 표현에서의 수사적 질문: 선형 탐색 연구

Rhetorical Questions in LLM Representations: A Linear Probing Study

V. Anand
V. Anand
Citations: 1
h-index: 1
Tianyu Jiang
Tianyu Jiang
University of Cincinnati
Citations: 127
h-index: 7
Louie Hong Yao
Louie Hong Yao
Citations: 3
h-index: 1
Zhuang Yuan
Zhuang Yuan
Citations: 11
h-index: 2

수사적 질문은 정보를 얻기 위해서가 아니라 설득하거나 특정 입장을 나타내기 위해 사용됩니다. 그러나 대규모 언어 모델(LLM) 내부적으로 이러한 질문을 어떻게 표현하는지는 아직 명확하지 않습니다. 본 연구에서는 두 개의 소셜 미디어 데이터 세트를 사용하여 다양한 담론 맥락에서 LLM 표현을 분석하고, 선형 탐색 기법을 통해 수사적 신호가 얼마나 일찍 나타나는지, 그리고 어떤 표현에서 가장 안정적으로 포착되는지를 조사했습니다. 그 결과, 수사적 질문은 데이터 세트 내에서 정보 획득 질문과 선형적으로 분리될 수 있으며, 데이터 세트 간의 이전을 통해 탐지 가능성이 높으며, AUROC 값이 약 0.7~0.8에 도달합니다. 그러나 전이 가능성이 단순히 공유된 표현을 의미하는 것은 아닙니다. 서로 다른 데이터 세트에서 훈련된 탐색 모델은 동일한 대상 코퍼스에 적용될 때 서로 다른 순위를 나타내며, 상위 순위 항목 간의 중복률은 종종 0.2 미만입니다. 질적 분석 결과, 이러한 차이는 뚜렷한 수사적 현상에 해당하며, 일부 탐색 모델은 확장된 논증에 내재된 담론 수준의 수사적 태도를 포착하는 반면, 다른 모델은 지역화된, 구문 중심적인 의문형 표현을 강조합니다. 이러한 결과를 종합적으로 고려할 때, LLM 표현에서의 수사적 질문은 단일한 공유된 방향이 아닌, 다양한 단서를 강조하는 여러 개의 선형 방향으로 인코딩된다고 할 수 있습니다.

Original Abstract

Rhetorical questions are asked not to seek information but to persuade or signal stance. How large language models internally represent them remains unclear. We analyze rhetorical questions in LLM representations using linear probes on two social-media datasets with different discourse contexts, and find that rhetorical signals emerge early and are most stably captured by last-token representations. Rhetorical questions are linearly separable from information-seeking questions within datasets, and remain detectable under cross-dataset transfer, reaching AUROC around 0.7-0.8. However, we demonstrate that transferability does not simply imply a shared representation. Probes trained on different datasets produce different rankings when applied to the same target corpus, with overlap among the top-ranked instances often below 0.2. Qualitative analysis shows that these divergences correspond to distinct rhetorical phenomena: some probes capture discourse-level rhetorical stance embedded in extended argumentation, while others emphasize localized, syntax-driven interrogative acts. Together, these findings suggest that rhetorical questions in LLM representations are encoded by multiple linear directions emphasizing different cues, rather than a single shared direction.

1 Citations
0 Influential
3.5 Altmetric
18.5 Score
Original PDF

No Analysis Report Yet

This paper hasn't been analyzed by Gemini yet.

Log in to request an AI analysis.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!