모호한 사용자 질의에 대한 비교적 판단을 통한 능동적인 인스턴스 탐색
Proactive Instance Navigation with Comparative Judgment for Ambiguous User Queries
자연어 인스턴스 탐색은 초기 사용자 요청이 대상 인스턴스를 명확하게 특정하지 못할 때 어려움을 겪습니다. 실용적인 에이전트는 사용자의 부담을 줄이기 위해, 대상 인스턴스와 유사한 다른 후보들을 구별하는 데 필요한 정보만 적극적으로 질문하고, 사전에 상세한 설명을 요구하는 대신 이를 수행해야 합니다. 기존 접근 방식은 종종 이러한 목표에 미치지 못합니다. 일부는 충분한 대안 탐색 없이 첫 번째로 가능한 후보에 멈추거나, 여러 후보를 수집한 후에도 각 후보에서 파생된 대상의 속성에 대한 질문을 하는 반면, 후보 풀 전체를 구별하는 질문을 선택하지 않습니다. 그 결과, 대화에도 불구하고 에이전트는 여전히 대상을 다른 후보들과 구별하지 못하여 조기 결정과 장황한 사용자 응답을 초래할 수 있습니다. 본 논문에서는 비교적 판단을 통한 능동적인 인스턴스 탐색(ProCompNav)이라는 두 단계 프레임워크를 제안합니다. ProCompNav는 먼저 후보 풀을 구성한 다음, 비교적 판단을 통해 대상을 식별합니다. 각 단계에서 ProCompNav는 현재 풀을 분리하는 속성-값 쌍을 추출하고, 이진 형태의 예/아니오 질문을 하고, 모든 일치하지 않는 후보들을 한 번에 제거합니다. 이를 통해 대상에 대한 개방형 설명을 요구하는 방식을, 후보 풀 수준의 차별화 질문으로 재구성하며, 각 질문은 후보 집합을 좁히는 데 사용됩니다. CoIN-Bench 데이터셋에서 ProCompNav는 동일한 최소 입력과 상세한 설명을 사용하는 비상호작용 기반 모델에 비해 성공률을 향상시키고, 응답 길이를 크게 줄입니다. 또한 ProCompNav는 TextNav 데이터셋에서 최고 수준의 성공률을 달성하여, 유사한 후보들 간의 인스턴스 수준 탐색에 비교적 판단이 광범위하게 유용하다는 것을 시사합니다.
Natural-language instance navigation becomes challenging when the initial user request does not uniquely specify the target instance. A practical agent should reduce the user's burden by actively asking only the information needed to distinguish the target from similar distractors, rather than requiring a detailed description upfront. Existing approaches often fall short of this goal: they may stop at the first plausible candidate before sufficiently exploring alternatives, or, even after collecting multiple candidates, ask about the target's attributes derived from individual candidates rather than questions selected to distinguish candidates in the pool. As a result, despite the dialogue, the agent may still fail to distinguish the target from distractors, leading to premature decisions and lengthy user responses. We propose Proactive Instance Navigation with Comparative Judgment (ProCompNav), a two-stage framework that first constructs a candidate pool and then identifies the target through comparative judgment. At each round, ProCompNav extracts an attribute-value pair that splits the current pool, asks a binary yes/no question, and prunes all inconsistent candidates at once. This reframes disambiguation from open-ended target description to pool-level discriminative questioning, where each question is chosen to narrow the candidate set. On CoIN-Bench, ProCompNav improves Success Rate over interactive baselines with the same minimal input and non-interactive baselines with detailed descriptions, while substantially reducing Response Length. ProCompNav also achieves state-of-the-art Success Rate on TextNav, suggesting that comparative judgment is broadly useful for instance-level navigation among similar distractors.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.
Log in to request an AI analysis.