확장 가능한 대화형 감독을 통한 대규모 언어 모델(LLM) 유도
Steering LLMs via Scalable Interactive Oversight
대규모 언어 모델이 '바이브 코딩(vibe coding)'과 같은 복잡하고 장기적인 작업을 점점 더 자동화함에 따라 감독의 격차가 발생했습니다. 모델의 실행 능력은 뛰어나지만, 사용자는 부족한 도메인 전문 지식, 정확한 의도 표현의 어려움, 그리고 복잡한 결과물에 대한 신뢰할 수 있는 검증 능력의 부재로 인해 모델을 효과적으로 유도하는 데 종종 어려움을 겪습니다. 이는 확장 가능한 감독에 있어 중요한 과제, 즉 인간이 직접 명시하거나 검증할 수 있는 능력을 뛰어넘는 작업에 대해 AI 시스템을 책임감 있게 유도할 수 있도록 하는 문제를 제기합니다. 이를 해결하기 위해 우리는 복잡한 의도를 관리 가능한 결정들로 구성된 재귀적 트리로 분해하여 인간의 감독 능력을 증폭시키는 프레임워크인 '확장 가능한 대화형 감독(Scalable Interactive Oversight)'을 제안합니다. 이 시스템은 막연한 개방형 프롬프팅에 의존하는 대신, 각 노드에서 부담이 적은 피드백을 수집하고 이러한 신호를 재귀적으로 통합하여 정밀한 전역 지침을 형성합니다. 웹 개발 작업에서 검증된 이 프레임워크는 비전문가가 전문가 수준의 제품 요구사항 문서(PRD)를 작성할 수 있게 해주며, 54%의 정렬 개선을 달성했습니다. 결정적으로, 우리는 이 프레임워크가 온라인 사용자 피드백만을 활용한 강화 학습을 통해 최적화될 수 있음을 입증하였으며, 이는 AI가 확장됨에 따라 인간의 통제권을 유지할 수 있는 실용적인 경로를 제시합니다.
As Large Language Models increasingly automate complex, long-horizon tasks such as \emph{vibe coding}, a supervision gap has emerged. While models excel at execution, users often struggle to guide them effectively due to insufficient domain expertise, the difficulty of articulating precise intent, and the inability to reliably validate complex outputs. It presents a critical challenge in scalable oversight: enabling humans to responsibly steer AI systems on tasks that surpass their own ability to specify or verify. To tackle this, we propose Scalable Interactive Oversight, a framework that decomposes complex intent into a recursive tree of manageable decisions to amplify human supervision. Rather than relying on open-ended prompting, our system elicits low-burden feedback at each node and recursively aggregates these signals into precise global guidance. Validated in web development task, our framework enables non-experts to produce expert-level Product Requirement Documents, achieving a 54\% improvement in alignment. Crucially, we demonstrate that this framework can be optimized via Reinforcement Learning using only online user feedback, offering a practical pathway for maintaining human control as AI scales.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.