적응형 너비-깊이 검색을 이용한 자율 지식 그래프 탐색
Autonomous Knowledge Graph Exploration with Adaptive Breadth-Depth Retrieval
지식 그래프에서 언어 모델 질의에 대한 근거를 검색하려면 그래프 전반에 걸친 광범위한 검색과 관계 링크를 따라가는 멀티 홉 순회 간의 균형이 필요합니다. 유사도 기반 검색기는 포괄 범위를 제공하지만 얕은 수준에 머무르는 반면, 순회 기반 방법은 탐색을 시작할 시드 노드 선택에 의존하므로 질의가 여러 개체와 관계에 걸쳐 있을 때 실패할 수 있습니다. 우리는 두 가지 연산 도구 세트(노드 설명자에 대한 전역 어휘 검색과 멀티 홉 순회를 구성하는 단일 홉 이웃 탐색)를 사용하여 언어 모델이 이러한 너비-깊이 트레이드오프를 제어할 수 있게 하는 에이전트형 지식 그래프 검색기인 ARK(Adaptive Retriever of Knowledge)를 소개합니다. ARK는 불안정한 시드 선택이나 사전 설정된 홉 깊이에 의존하지 않고, 별도의 검색 훈련도 필요 없이 너비 지향적 발견과 깊이 지향적 확장을 번갈아 수행합니다. ARK는 질의에 맞춰 도구 사용을 조정하여, 언어적 요소가 많은 질의에는 전역 검색을, 관계적 요소가 많은 질의에는 이웃 탐색을 사용합니다. STaRK 벤치마크에서 ARK는 평균 59.1%의 Hit@1과 67.4의 MRR을 달성하여, 기존 검색 기반 및 훈련이 필요 없는 에이전트 방법들보다 평균 Hit@1을 최대 31.4%, 평균 MRR을 최대 28.0% 향상시켰습니다. 마지막으로, 우리는 라벨 없는 모방 학습을 통해 대규모 교사 모델로부터 ARK의 도구 사용 궤적을 8B 모델로 증류(distill)하여, 교사 모델의 Hit@1 비율을 최대 98.5% 유지하면서도 AMAZON, MAG, PRIME 데이터셋에서 기본 8B 모델 대비 Hit@1을 각각 7.0, 26.6, 13.5 포인트 향상시켰습니다.
Retrieving evidence for language model queries from knowledge graphs requires balancing broad search across the graph with multi-hop traversal to follow relational links. Similarity-based retrievers provide coverage but remain shallow, whereas traversal-based methods rely on selecting seed nodes to start exploration, which can fail when queries span multiple entities and relations. We introduce ARK: Adaptive Retriever of Knowledge, an agentic KG retriever that gives a language model control over this breadth-depth tradeoff using a two-operation toolset: global lexical search over node descriptors and one-hop neighborhood exploration that composes into multi-hop traversal. ARK alternates between breadth-oriented discovery and depth-oriented expansion without depending on a fragile seed selection, a pre-set hop depth, or requiring retrieval training. ARK adapts tool use to queries, using global search for language-heavy queries and neighborhood exploration for relation-heavy queries. On STaRK, ARK reaches 59.1% average Hit@1 and 67.4 average MRR, improving average Hit@1 by up to 31.4% and average MRR by up to 28.0% over retrieval-based and agentic training-free methods. Finally, we distill ARK's tool-use trajectories from a large teacher into an 8B model via label-free imitation, improving Hit@1 by +7.0, +26.6, and +13.5 absolute points over the base 8B model on AMAZON, MAG, and PRIME datasets, respectively, while retaining up to 98.5% of the teacher's Hit@1 rate.
AI Analysis
Korean Summary
Key Innovations
- 너비(Breadth)와 깊이(Depth) 검색 전략을 쿼리에 따라 동적으로 조절하는 적응형 에이전트 프레임워크
- 시드 엔티티(Seed Entity)를 사전에 지정하거나 탐색 깊이를 고정할 필요 없는 유연한 탐색 방식
- 전역 어휘 검색(BM25)과 필터링/랭킹이 포함된 1-hop 이웃 탐색으로 구성된 최소한의 도구 인터페이스
- 정답 데이터(Ground-truth) 없이 교사 모델의 도구 사용 궤적만을 모방하여 소형 모델로 성능을 전이하는 레이블 프리 증류(Label-free Distillation) 기법
- 병렬 에이전트 실행 및 투표 기반 앙상블을 통한 탐색 견고성 향상
Learning & Inference Impact
학습 측면에서 ARK는 기본적으로 훈련이 필요 없는(Training-free) 방식이지만, 비용 절감을 위해 교사 모델(GPT-4)의 성공적인 탐색 경로를 학생 모델(Qwen3-8B)에 학습시키는 증류 과정을 도입했습니다. 이는 정답 레이블이 없는 환경에서도 모델을 최적화할 수 있게 하여 데이터 구축 비용을 낮춥니다. 추론 측면에서는 에이전트가 다중 턴(Multi-turn)으로 도구를 사용하므로 단일 검색보다 지연 시간이 길어질 수 있으나, 병렬 처리와 소형 모델 증류를 통해 이를 완화하고 비용 효율성을 확보했습니다. 특히 증류된 모델은 교사 모델 성능의 최대 98.5%를 유지하면서도 추론 비용을 획기적으로 낮춥니다.
Technical Difficulty
Estimated implementation complexity based on methodology.