2604.17614v1 Apr 19, 2026 cs.AI

모델 자체의 능력을 규명하는 방법

Characterizing Model-Native Skills

Feiyang Kang
Feiyang Kang
Citations: 280
h-index: 10
Myeongseob Ko
Myeongseob Ko
Citations: 103
h-index: 4
Mahavir Dabas
Mahavir Dabas
Citations: 25
h-index: 3
Ruoxi Jia
Ruoxi Jia
Citations: 160
h-index: 8

능력(skills)은 언어 모델이 무엇을 할 수 있는지, 그리고 어떻게 동작 방식을 변경할 수 있는지를 설명하는 자연스러운 단위입니다. 그러나 기존의 능력 규명 방식은 인간이 작성한 분류 체계, 텍스트 설명, 또는 수동 프로파일링 파이프라인에 의존합니다. 이러한 방식들은 모두 모델의 내부 표현과 일치하지 않을 수 있는, 모델이 중요하다고 생각하는 것에 대한 외부적인 가설입니다. 우리는 모델의 동작을 제어하는 것이 목표일 때, 능력 규명은 *모델 자체의 표현*에 기반해야 하며, 외부 온톨로지를 통해 강제하는 것이 아니라 모델 자체의 표현을 활용해야 한다고 주장합니다. 우리는 시퀀스 레벨 활성화를 통해 간결한 직교 기저(orthogonal basis)를 복원함으로써 이러한 관점을 구현합니다. 결과적으로 얻어진 기저는 의미적으로 해석 가능하지만, 미리 정의된 인간의 온톨로지와 반드시 일치할 필요는 없습니다. 대신, 이 기저는 모델 자체적으로 조직되는 행동 변화의 축을 나타냅니다. 우리는 이 규명 방식을 추론 후 학습 과정에서 검증했으며, 복원된 기저를 사용하여 SFT 데이터 선택과 추론 시 동작 제어에 활용했습니다. 우리는 특정 모델에 가장 유용한 방향을 식별하기 위한 경량화된 프록시 개입(proxy interventions)을 개발했습니다. Llama3-8B와 Qwen2.5-3B 모델에서, 해당 방향을 따라 데이터를 선택하면 MATH 문제에서 Pass@1이 최대 20%, AMC 문제에서 41% 향상되었습니다. 이는 인간이 규정한 능력에 기반한 데이터 선택보다 우수한 성능입니다. 기저가 활성화 공간에 존재하기 때문에, 동일한 방향은 추론 시에도 제어 벡터로 사용될 수 있으며, MATH 문제에서 Pass@8을 최대 4.8% 향상시킵니다. 이는 인간이 규정한 능력으로는 지원할 수 없는 제어 방식입니다. 또한, 안전 정렬(safety alignment) 과정에서도, 텍스트 다양성 대신 모델 자체의 능력 범위를 고려하여 적대적 학습 데이터를 선택하면 더 효율적인 학습이 가능함을 확인했습니다. 이러한 결과는 모델의 자체 표현에서 능력을 복원하는 것이, 외부적으로 강제하는 것보다 모델의 동작을 제어하는 데 더욱 효과적인 기반을 제공한다는 것을 시사합니다. 관련 코드는 공개되어 있습니다.

Original Abstract

Skills are a natural unit for describing what a language model can do and how its behavior can be changed. However, existing characterizations rely on human-written taxonomies, textual descriptions, or manual profiling pipelines--all external hypotheses about what matters that need not align with the model's internal representations. We argue that when the goal is to intervene on model behavior, skill characterization should be *model-native*: grounded in the model's own representations rather than imposed through external ontologies. We instantiate this view by recovering a compact orthogonal basis from sequence-level activations. The resulting basis is semantically interpretable but need not correspond to any predefined human ontology; instead, it captures axes of behavioral variation that the model itself organizes around. We validate this characterization on reasoning post-training, using the recovered basis for both SFT data selection and inference-time steering. We develop lightweight proxy interventions to identify which directions are most useful for a given model. Across Llama3-8B and Qwen2.5-3B, selecting data along those directions improves Pass@1 by up to 20% on MATH and 41% on AMC, outperforming data selection based on human-characterized skills. Because the basis lives in activation space, the same directions also serve as steering vectors at inference time, improving Pass@8 by up to 4.8% on MATH--an intervention that human-characterized skills cannot support. We further validate the characterization on safety alignment, where selecting adversarial training data for model-native skill coverage rather than textual diversity yields more sample-efficient learning. These results suggest that recovering skills from the model's own representations, rather than imposing them externally, provides a more effective foundation for intervening on model behavior. Codes are open-sourced.

0 Citations
0 Influential
5 Altmetric
25.0 Score
Original PDF

No Analysis Report Yet

This paper hasn't been analyzed by Gemini yet.

Log in to request an AI analysis.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!