상태 전이 분석을 통한 제어된 라우팅에서의 재사용성 연구
State Transfer Reveals Reuse in Controlled Routing
프롬프트 기반 개입은 모델의 동작을 변화시킬 수 있지만, 학습된 성공만으로는 행동적으로 중요한 상태가 어디에 표현되는지 알 수 없습니다. 본 연구에서는 제어된 라우팅 과제를 통해 이 문제를 조사합니다. 연구는 지원 데이터에 기반한 인터페이스 선택, 별도의 평가 데이터셋 사용, 그리고 필요성, 충분성, 그리고 잘못된 인터페이스를 사용한 통제 실험을 통해 진행됩니다. GPT-2 triop 모델에서, 초기 인터페이스는 이러한 테스트 하에서 정확한 전이를 가능하게 합니다. GPT-2 add/sub 모델에서, 사전 학습된 전이 학습은 고정된 인터페이스에서 대부분의 기증자 라우팅 정확도를 회복합니다. 반면, 학습 가능한 프롬프트 슬롯은 추가적인 지원 예제와 최적화를 통해 여러 위치에서 동일한 동작을 다시 학습할 수 있습니다. 이러한 결과는 고정된 인터페이스의 재사용과 프롬프트 재배치 현상을 직접적으로 비교할 수 있는 환경에서 구분합니다. Qwen 라우팅은 동일한 매칭된 인터페이스 패턴에 대한 아키텍처 간 일관성 검증을 제공하며, 이는 연산자 토큰 수준에서 수행됩니다. 그러나 여전히 로컬 V 경로에서의 기증자별 특성 문제는 해결되지 않았습니다. 생성 및 추론 브랜치는 범위를 파악하는 데 사용되며, 이는 제어가 더 긴 경로 또는 더 어려운 선택에 의존할 때 더 넓은 범위의 전송 또는 더 약한 제어기 식별 가능성을 보여줍니다. 따라서 제어된 라우팅에서, 고정된 인터페이스의 전이는 학습된 프롬프트의 성공만으로는 얻을 수 없는 재사용성의 더 강력한 증거입니다.
Prompt-based interventions can change model behavior, but trained success alone does not identify where the behaviorally relevant state is represented. We study this question in controlled routing tasks using interfaces chosen on support data, held-out query evaluation, and matched necessity, sufficiency, and wrong-interface controls. On GPT-2 triop, an early interface supports exact transfer under these tests. On GPT-2 add/sub, zero-retrain compiled transfer at the fixed interface recovers most of donor routing accuracy, while trainable prompt slots can relearn the same behavior at several other positions only after additional support examples and optimization. These results distinguish fixed-interface reuse from prompt relocation in a setting where the two can be tested directly. Qwen routing provides a cross-architecture consistency check for the same matched-interface pattern at the operator token, although donor-specific identity on the local V-path remains unresolved. Generation and reasoning branches are used to map scope: they show broader transport or weaker controller identifiability once control depends on longer trajectories or harder selection. In controlled routing, fixed-interface transfer is therefore stronger evidence of reuse than trained prompt success alone.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.
Log in to request an AI analysis.