2601.13969v1 Jan 20, 2026 cs.AI

적응형 너비-깊이 검색을 이용한 자율 지식 그래프 탐색

Autonomous Knowledge Graph Exploration with Adaptive Breadth-Depth Retrieval

Joaqu'in Polonuer
Joaqu'in Polonuer
Citations: 2
h-index: 1
Lucas Vittor
Lucas Vittor
Citations: 6
h-index: 1
Inaki Arango
Inaki Arango
Citations: 7
h-index: 1
Ayush Noori
Ayush Noori
Citations: 75
h-index: 3
David A. Clifton
David A. Clifton
Citations: 2
h-index: 1
Luciano Del Corro
Luciano Del Corro
Citations: 1,414
h-index: 14
Marinka Zitnik Department of Biomedical Informatics
Marinka Zitnik Department of Biomedical Informatics
Citations: 1
h-index: 1
H. School
H. School
Citations: 6,223
h-index: 20
Boston
Boston
Citations: 87
h-index: 2
Usa
Usa
Citations: 2,015
h-index: 20
Departamento de Computaci'on
Departamento de Computaci'on
Citations: 12
h-index: 1
FCEyN
FCEyN
Citations: 28
h-index: 3
Universidad de Buenos Aires
Universidad de Buenos Aires
Citations: 291
h-index: 10
Buenos Aires
Buenos Aires
Citations: 4
h-index: 1
Argentina
Argentina
Citations: 26
h-index: 3
Department of Data Science
Department of Data Science
Citations: 5
h-index: 1
U. Oxford
U. Oxford
Citations: 10,112
h-index: 51
Oxford
Oxford
Citations: 1,200
h-index: 17
Uk
Uk
Citations: 798
h-index: 11
Oxford Suzhou Centre for Advanced Research
Oxford Suzhou Centre for Advanced Research
Citations: 1
h-index: 1
Suzhou
Suzhou
Citations: 11
h-index: 2
Jiangsu
Jiangsu
Citations: 38
h-index: 3
China
China
Citations: 12
h-index: 1
Elias Lab
Elias Lab
Citations: 1
h-index: 1
Departamento de Ingenier'ia
Departamento de Ingenier'ia
Citations: 1
h-index: 1
Universidad de San Andr'es
Universidad de San Andr'es
Citations: 1
h-index: 1
Victoria
Victoria
Citations: 43
h-index: 1
Lumina Labs
Lumina Labs
Citations: 1
h-index: 1
Kempner Institute for the Study of Natural
Kempner Institute for the Study of Natural
Citations: 1
h-index: 1
Artificial Intelligence
Artificial Intelligence
Citations: 132
h-index: 5
Allston
Allston
Citations: 1
h-index: 1
Broad Institute of Mit
Broad Institute of Mit
Citations: 13
h-index: 2
Cambridge
Cambridge
Citations: 797
h-index: 15
Harvard Data Science Initiative
Harvard Data Science Initiative
Citations: 1
h-index: 1
Ma.
Ma.
Citations: 695
h-index: 6
Harvard
Harvard
Citations: 7,797
h-index: 32

지식 그래프에서 언어 모델 질의에 대한 근거를 검색하려면 그래프 전반에 걸친 광범위한 검색과 관계 링크를 따라가는 멀티 홉 순회 간의 균형이 필요합니다. 유사도 기반 검색기는 포괄 범위를 제공하지만 얕은 수준에 머무르는 반면, 순회 기반 방법은 탐색을 시작할 시드 노드 선택에 의존하므로 질의가 여러 개체와 관계에 걸쳐 있을 때 실패할 수 있습니다. 우리는 두 가지 연산 도구 세트(노드 설명자에 대한 전역 어휘 검색과 멀티 홉 순회를 구성하는 단일 홉 이웃 탐색)를 사용하여 언어 모델이 이러한 너비-깊이 트레이드오프를 제어할 수 있게 하는 에이전트형 지식 그래프 검색기인 ARK(Adaptive Retriever of Knowledge)를 소개합니다. ARK는 불안정한 시드 선택이나 사전 설정된 홉 깊이에 의존하지 않고, 별도의 검색 훈련도 필요 없이 너비 지향적 발견과 깊이 지향적 확장을 번갈아 수행합니다. ARK는 질의에 맞춰 도구 사용을 조정하여, 언어적 요소가 많은 질의에는 전역 검색을, 관계적 요소가 많은 질의에는 이웃 탐색을 사용합니다. STaRK 벤치마크에서 ARK는 평균 59.1%의 Hit@1과 67.4의 MRR을 달성하여, 기존 검색 기반 및 훈련이 필요 없는 에이전트 방법들보다 평균 Hit@1을 최대 31.4%, 평균 MRR을 최대 28.0% 향상시켰습니다. 마지막으로, 우리는 라벨 없는 모방 학습을 통해 대규모 교사 모델로부터 ARK의 도구 사용 궤적을 8B 모델로 증류(distill)하여, 교사 모델의 Hit@1 비율을 최대 98.5% 유지하면서도 AMAZON, MAG, PRIME 데이터셋에서 기본 8B 모델 대비 Hit@1을 각각 7.0, 26.6, 13.5 포인트 향상시켰습니다.

Original Abstract

Retrieving evidence for language model queries from knowledge graphs requires balancing broad search across the graph with multi-hop traversal to follow relational links. Similarity-based retrievers provide coverage but remain shallow, whereas traversal-based methods rely on selecting seed nodes to start exploration, which can fail when queries span multiple entities and relations. We introduce ARK: Adaptive Retriever of Knowledge, an agentic KG retriever that gives a language model control over this breadth-depth tradeoff using a two-operation toolset: global lexical search over node descriptors and one-hop neighborhood exploration that composes into multi-hop traversal. ARK alternates between breadth-oriented discovery and depth-oriented expansion without depending on a fragile seed selection, a pre-set hop depth, or requiring retrieval training. ARK adapts tool use to queries, using global search for language-heavy queries and neighborhood exploration for relation-heavy queries. On STaRK, ARK reaches 59.1% average Hit@1 and 67.4 average MRR, improving average Hit@1 by up to 31.4% and average MRR by up to 28.0% over retrieval-based and agentic training-free methods. Finally, we distill ARK's tool-use trajectories from a large teacher into an 8B model via label-free imitation, improving Hit@1 by +7.0, +26.6, and +13.5 absolute points over the base 8B model on AMAZON, MAG, and PRIME datasets, respectively, while retaining up to 98.5% of the teacher's Hit@1 rate.

1 Citations
0 Influential
25.5 Altmetric
128.5 Score
Original PDF

AI Analysis

Korean Summary

이 논문은 지식 그래프(Knowledge Graph)에서 정보를 검색할 때 탐색의 범위(너비)와 깊이 사이의 균형을 맞추는 에이전트 기반 검색 프레임워크인 ARK(Adaptive Retriever of Knowledge)를 제안합니다. 기존의 유사도 기반 검색은 얕은 정보에 그치고, 순회 기반 검색은 시작점(Seed) 설정이 어렵다는 단점이 있었습니다. ARK는 '전역 어휘 검색(Global Lexical Search)'과 '이웃 노드 탐색(Neighborhood Exploration)'이라는 두 가지 도구를 LLM이 쿼리의 특성에 맞춰 동적으로 선택하여 사용하게 합니다. 이를 통해 텍스트 중심 쿼리와 관계 중심 쿼리 모두에서 높은 성능을 보였으며, STaRK 벤치마크에서 기존 방법들을 크게 앞섰습니다. 또한, 고성능 모델의 도구 사용 경로를 학습하여 레이블 없이 소형 모델(8B)로 증류(Distillation)함으로써 효율적인 추론이 가능함을 입증했습니다.

Key Innovations

  • 너비(Breadth)와 깊이(Depth) 검색 전략을 쿼리에 따라 동적으로 조절하는 적응형 에이전트 프레임워크
  • 시드 엔티티(Seed Entity)를 사전에 지정하거나 탐색 깊이를 고정할 필요 없는 유연한 탐색 방식
  • 전역 어휘 검색(BM25)과 필터링/랭킹이 포함된 1-hop 이웃 탐색으로 구성된 최소한의 도구 인터페이스
  • 정답 데이터(Ground-truth) 없이 교사 모델의 도구 사용 궤적만을 모방하여 소형 모델로 성능을 전이하는 레이블 프리 증류(Label-free Distillation) 기법
  • 병렬 에이전트 실행 및 투표 기반 앙상블을 통한 탐색 견고성 향상

Learning & Inference Impact

학습 측면에서 ARK는 기본적으로 훈련이 필요 없는(Training-free) 방식이지만, 비용 절감을 위해 교사 모델(GPT-4)의 성공적인 탐색 경로를 학생 모델(Qwen3-8B)에 학습시키는 증류 과정을 도입했습니다. 이는 정답 레이블이 없는 환경에서도 모델을 최적화할 수 있게 하여 데이터 구축 비용을 낮춥니다. 추론 측면에서는 에이전트가 다중 턴(Multi-turn)으로 도구를 사용하므로 단일 검색보다 지연 시간이 길어질 수 있으나, 병렬 처리와 소형 모델 증류를 통해 이를 완화하고 비용 효율성을 확보했습니다. 특히 증류된 모델은 교사 모델 성능의 최대 98.5%를 유지하면서도 추론 비용을 획기적으로 낮춥니다.

Technical Difficulty

중급

Estimated implementation complexity based on methodology.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!