숨겨진 상태를 유도하는 방법: 대규모 오디오-언어 모델의 연쇄적 사고 추론을 위한 학습 불필요 모델 제어
Nudging Hidden States: Training-Free Model Steering for Chain-of-Thought Reasoning in Large Audio-Language Models
연쇄적 사고(Chain-of-Thought, CoT) 프롬프트는 대규모 오디오-언어 모델(Large Audio-Language Models, LALMs)에서 추론 능력을 향상시키기 위해 활용되어 왔지만, 학습 없이 그 효과를 높이는 것은 여전히 어려운 과제입니다. 본 연구에서는 학습이 필요 없는 모델 제어(model steering) 방식을 사용하여 LALM의 추론 능력을 향상시키는 방법을 탐구합니다. 우리는 다양한 정보 소스를 활용한 세 가지 전략을 제시하고, 네 가지 LALM 모델과 네 가지 벤치마크를 사용하여 그 성능을 평가했습니다. 그 결과, CoT 프롬프트에 비해 최대 4.4%의 정확도 향상을 보였습니다. 특히, 소량의 텍스트 샘플에서 파생된 제어 벡터가 음성 기반 추론을 효과적으로 유도하는 교차 모달(cross-modal) 전이 현상을 확인했으며, 이는 높은 데이터 효율성을 보여줍니다. 또한, 이러한 접근 방식의 안정성을 이해하기 위해 하이퍼파라미터 민감도를 분석했습니다. 본 연구의 결과는 모델 제어가 LALM의 추론 능력을 강화하는 데 있어 실용적인 방향을 제시합니다.
Chain-of-thought (CoT) prompting has been extended to large audio-language models (LALMs) to elicit reasoning, yet enhancing its effectiveness without training remains challenging. We study inference-time model steering as a training-free approach to improve LALM reasoning. We introduce three strategies using diverse information sources and evaluate them across four LALMs and four benchmarks. Results show general accuracy gains up to 4.4% over CoT prompting. Notably, we identify a cross-modal transfer where steering vectors derived from few text samples effectively guide speech-based reasoning, demonstrating high data efficiency. We also examine hyperparameter sensitivity to understand the robustness of these approaches. Our findings position model steering as a practical direction for strengthening LALM reasoning.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.
Log in to request an AI analysis.