2602.04210v1 Feb 04, 2026 cs.AI

확장 가능한 대화형 감독을 통한 대규모 언어 모델(LLM) 유도

Steering LLMs via Scalable Interactive Oversight

Xuanjing Huang
Xuanjing Huang
Citations: 2,818
h-index: 28
Enyu Zhou
Enyu Zhou
Citations: 2,443
h-index: 12
Zhiheng Xi
Zhiheng Xi
Citations: 957
h-index: 14
Shihan Dou
Shihan Dou
Citations: 3,813
h-index: 25
Guoteng Wang
Guoteng Wang
Citations: 585
h-index: 7
Tao Gui
Tao Gui
Citations: 7,755
h-index: 41
Long Ma
Long Ma
Citations: 1
h-index: 1
Zhihao Zhang
Zhihao Zhang
Citations: 239
h-index: 6
Zhikai Lei
Zhikai Lei
Citations: 387
h-index: 4
R. Zheng
R. Zheng
Citations: 52
h-index: 4
Hang Yan
Hang Yan
Citations: 191
h-index: 6
Qi Zhang
Qi Zhang
Citations: 1,543
h-index: 22

대규모 언어 모델이 '바이브 코딩(vibe coding)'과 같은 복잡하고 장기적인 작업을 점점 더 자동화함에 따라 감독의 격차가 발생했습니다. 모델의 실행 능력은 뛰어나지만, 사용자는 부족한 도메인 전문 지식, 정확한 의도 표현의 어려움, 그리고 복잡한 결과물에 대한 신뢰할 수 있는 검증 능력의 부재로 인해 모델을 효과적으로 유도하는 데 종종 어려움을 겪습니다. 이는 확장 가능한 감독에 있어 중요한 과제, 즉 인간이 직접 명시하거나 검증할 수 있는 능력을 뛰어넘는 작업에 대해 AI 시스템을 책임감 있게 유도할 수 있도록 하는 문제를 제기합니다. 이를 해결하기 위해 우리는 복잡한 의도를 관리 가능한 결정들로 구성된 재귀적 트리로 분해하여 인간의 감독 능력을 증폭시키는 프레임워크인 '확장 가능한 대화형 감독(Scalable Interactive Oversight)'을 제안합니다. 이 시스템은 막연한 개방형 프롬프팅에 의존하는 대신, 각 노드에서 부담이 적은 피드백을 수집하고 이러한 신호를 재귀적으로 통합하여 정밀한 전역 지침을 형성합니다. 웹 개발 작업에서 검증된 이 프레임워크는 비전문가가 전문가 수준의 제품 요구사항 문서(PRD)를 작성할 수 있게 해주며, 54%의 정렬 개선을 달성했습니다. 결정적으로, 우리는 이 프레임워크가 온라인 사용자 피드백만을 활용한 강화 학습을 통해 최적화될 수 있음을 입증하였으며, 이는 AI가 확장됨에 따라 인간의 통제권을 유지할 수 있는 실용적인 경로를 제시합니다.

Original Abstract

As Large Language Models increasingly automate complex, long-horizon tasks such as \emph{vibe coding}, a supervision gap has emerged. While models excel at execution, users often struggle to guide them effectively due to insufficient domain expertise, the difficulty of articulating precise intent, and the inability to reliably validate complex outputs. It presents a critical challenge in scalable oversight: enabling humans to responsibly steer AI systems on tasks that surpass their own ability to specify or verify. To tackle this, we propose Scalable Interactive Oversight, a framework that decomposes complex intent into a recursive tree of manageable decisions to amplify human supervision. Rather than relying on open-ended prompting, our system elicits low-burden feedback at each node and recursively aggregates these signals into precise global guidance. Validated in web development task, our framework enables non-experts to produce expert-level Product Requirement Documents, achieving a 54\% improvement in alignment. Crucially, we demonstrate that this framework can be optimized via Reinforcement Learning using only online user feedback, offering a practical pathway for maintaining human control as AI scales.

0 Citations
0 Influential
20.5 Altmetric
102.5 Score

No Analysis Report Yet

This paper hasn't been analyzed by Gemini yet.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!