2602.01689v1 Feb 02, 2026 cs.AI

무엇을 생각하라고 지시하지 않았을 때 LLM은 무슨 생각을 하는가?

What LLMs Think When You Don't Tell Them What to Think About?

Yongchan Kwon
Yongchan Kwon
Citations: 61
h-index: 3
James Zou
James Zou
Citations: 223
h-index: 8

다양한 환경에서 거대언어모델(LLM)의 행동을 특성화하는 것은 신뢰할 수 있는 모니터링과 AI 안전을 위해 매우 중요하다. 그러나 기존 분석 대부분은 주제나 과업에 특화된 프롬프트에 의존하여 관찰 가능한 범위를 상당히 제한할 수 있다. 본 연구에서는 주제 중립적인 최소한의 입력으로 LLM이 무엇을 생성하는지 연구하고, 제약이 거의 없는 상태에서의 생성 행동을 탐구한다. 명시적인 주제가 없음에도 모델 출력은 광범위한 의미 영역을 포괄하며, 놀랍게도 각 모델 계열마다 강력하고 체계적인 주제 선호도를 보인다. GPT-OSS는 주로 프로그래밍(27.1%)과 수학적 내용(24.6%)을 생성하는 반면, Llama는 문학적 내용(9.1%)을 가장 빈번하게 생성한다. DeepSeek는 종교적 내용을 자주 생성하고, Qwen은 객관식 문제를 자주 생성한다. 주제 선호도 외에도 콘텐츠 전문성과 깊이의 차이도 관찰되었다. 예를 들어 GPT-OSS는 다른 모델(예: 기초 Python)보다 기술적으로 더 고도화된 콘텐츠(예: 동적 계획법)를 생성하는 경향이 있다. 또한, 제약이 거의 없는 생성은 종종 반복적인 구문으로 변질되기도 하는데, 이를 통해 각 모델 계열의 독특하고 흥미로운 행동 양식이 드러난다. 예를 들어 Llama의 변질된 출력에는 개인 페이스북 및 인스타그램 계정으로 연결되는 다수의 URL이 포함된다. 우리는 16개 LLM에서 수집한 256,000개 샘플로 구성된 전체 데이터셋과 재현 가능한 코드베이스를 공개한다.

Original Abstract

Characterizing the behavior of large language models (LLMs) across diverse settings is critical for reliable monitoring and AI safety. However, most existing analyses rely on topic- or task-specific prompts, which can substantially limit what can be observed. In this work, we study what LLMs generate from minimal, topic-neutral inputs and probe their near-unconstrained generative behavior. Despite the absence of explicit topics, model outputs cover a broad semantic space, and surprisingly, each model family exhibits strong and systematic topical preferences. GPT-OSS predominantly generates programming (27.1%) and mathematical content (24.6%), whereas Llama most frequently generates literary content (9.1%). DeepSeek often generates religious content, while Qwen frequently generates multiple-choice questions. Beyond topical preferences, we also observe differences in content specialization and depth: GPT-OSS often generates more technically advanced content (e.g., dynamic programming) compared with other models (e.g., basic Python). Furthermore, we find that the near-unconstrained generation often degenerates into repetitive phrases, revealing interesting behaviors unique to each model family. For instance, degenerate outputs from Llama include multiple URLs pointing to personal Facebook and Instagram accounts. We release the complete dataset of 256,000 samples from 16 LLMs, along with a reproducible codebase.

0 Citations
0 Influential
4 Altmetric
20.0 Score

No Analysis Report Yet

This paper hasn't been analyzed by Gemini yet.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!