번역 스위치를 찾는 연구: LLM에서 작업 시작 기능을 발견하고 활용하기
Finding the Translation Switch: Discovering and Exploiting the Task-Initiation Features in LLMs
대규모 언어 모델(LLM)은 종종 작업별 미세 조정 없이도 뛰어난 번역 능력을 보여줍니다. 그러나 이러한 내재적인 능력에 대한 내부 메커니즘은 여전히 대부분 불투명합니다. 이러한 현상을 규명하기 위해, 우리는 희소 오토인코더(SAE)를 활용하고 작업별 특징을 식별하기 위한 새로운 프레임워크를 소개합니다. 우리의 방법은 먼저 번역 입력에서 자주 함께 활성화되는 특징을 검색하고, PCA 기반의 일관성 지표를 사용하여 기능적 일관성을 기준으로 이러한 특징을 필터링합니다. 이 프레임워크는 **번역 시작** 특징의 작은 집합을 성공적으로 분리합니다. 인과적 개입을 통해 이러한 특징을 강화하면 모델이 올바른 번역을 수행하도록 유도할 수 있으며, 반대로 이러한 특징을 제거하면 환각 현상 및 부적절한 출력으로 이어져, 이들이 모델의 내재적인 번역 능력의 핵심 구성 요소임을 확인합니다. 분석 결과를 바탕으로, 우리는 효율적인 미세 조정을 위한 새로운 데이터 선택 전략을 제안합니다. 특히, **메커니즘적으로 어려운** 샘플, 즉 번역 시작 특징을 자연적으로 활성화하지 못하는 샘플을 우선적으로 사용하여 학습합니다. 실험 결과, 이 접근 방식은 데이터 효율성을 크게 향상시키고 환각 현상을 억제하는 것으로 나타났습니다. 또한, 이러한 메커니즘은 동일 계열의 더 큰 모델에도 적용 가능하다는 것을 확인했습니다. 본 연구는 LLM의 번역 메커니즘의 핵심 구성 요소를 해독할 뿐만 아니라, 내부 모델 메커니즘을 활용하여 더욱 강력하고 효율적인 모델을 개발하기 위한 청사진을 제공합니다. 관련 코드는 다음 GitHub 주소에서 확인할 수 있습니다: https://github.com/flamewei123/AAAI26-translation-Initiation-Features.
Large Language Models (LLMs) frequently exhibit strong translation abilities, even without task-specific fine-tuning. However, the internal mechanisms governing this innate capability remain largely opaque. To demystify this process, we leverage Sparse Autoencoders (SAEs) and introduce a novel framework for identifying task-specific features. Our method first recalls features that are frequently co-activated on translation inputs and then filters them for functional coherence using a PCA-based consistency metric. This framework successfully isolates a small set of **translation initiation** features. Causal interventions demonstrate that amplifying these features steers the model towards correct translation, while ablating them induces hallucinations and off-task outputs, confirming they represent a core component of the model's innate translation competency. Moving from analysis to application, we leverage this mechanistic insight to propose a new data selection strategy for efficient fine-tuning. Specifically, we prioritize training on **mechanistically hard** samples-those that fail to naturally activate the translation initiation features. Experiments show this approach significantly improves data efficiency and suppresses hallucinations. Furthermore, we find these mechanisms are transferable to larger models of the same family. Our work not only decodes a core component of the translation mechanism in LLMs but also provides a blueprint for using internal model mechanism to create more robust and efficient models. The codes are available at https://github.com/flamewei123/AAAI26-translation-Initiation-Features.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.
Log in to request an AI analysis.