확장 가능한 상호작용적 감독을 통한 거대언어모델(LLM) 제어
Steering LLMs via Scalable Interactive Oversight
거대언어모델(LLM)이 '바이브 코딩(vibe coding)'과 같이 복잡하고 긴 호흡이 필요한 작업을 점점 더 자동화함에 따라 '감독 격차(supervision gap)'가 발생하고 있습니다. 모델의 실행 능력은 뛰어나지만, 사용자는 도메인 전문 지식 부족, 정확한 의도 표현의 어려움, 복잡한 결과물에 대한 신뢰성 있는 검증 불가능 등으로 인해 모델을 효과적으로 안내하는 데 어려움을 겪는 경우가 많습니다. 이는 확장 가능한 감독(scalable oversight)에 있어 중요한 과제, 즉 인간이 스스로 명세하거나 검증할 수 있는 능력을 넘어서는 작업에 대해 AI 시스템을 책임감 있게 제어할 수 있도록 하는 문제를 제기합니다. 이를 해결하기 위해 우리는 복잡한 의도를 관리 가능한 결정 단위의 재귀적 트리로 분해하여 인간의 감독 능력을 증폭시키는 프레임워크인 '확장 가능한 상호작용적 감독(Scalable Interactive Oversight)'을 제안합니다. 이 시스템은 개방형 프롬프팅에 의존하는 대신, 각 노드에서 부담이 적은 피드백을 유도하고 이러한 신호를 재귀적으로 통합하여 정밀한 전역 지침을 생성합니다. 웹 개발 작업에서 검증된 바와 같이, 우리의 프레임워크는 비전문가가 전문가 수준의 제품 요구 사항 정의서(PRD)를 작성할 수 있게 해주며, 정렬(alignment) 성능을 54% 향상시켰습니다. 결정적으로, 우리는 이 프레임워크가 온라인 사용자 피드백만을 사용하는 강화 학습을 통해 최적화될 수 있음을 입증하며, 이는 AI가 확장됨에 따라 인간의 통제권을 유지하기 위한 실질적인 경로를 제공합니다.
As Large Language Models increasingly automate complex, long-horizon tasks such as \emph{vibe coding}, a supervision gap has emerged. While models excel at execution, users often struggle to guide them effectively due to insufficient domain expertise, the difficulty of articulating precise intent, and the inability to reliably validate complex outputs. It presents a critical challenge in scalable oversight: enabling humans to responsibly steer AI systems on tasks that surpass their own ability to specify or verify. To tackle this, we propose Scalable Interactive Oversight, a framework that decomposes complex intent into a recursive tree of manageable decisions to amplify human supervision. Rather than relying on open-ended prompting, our system elicits low-burden feedback at each node and recursively aggregates these signals into precise global guidance. Validated in web development task, our framework enables non-experts to produce expert-level Product Requirement Documents, achieving a 54\% improvement in alignment. Crucially, we demonstrate that this framework can be optimized via Reinforcement Learning using only online user feedback, offering a practical pathway for maintaining human control as AI scales.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.