추측하지 않고 검색하기: 소규모 언어 모델을 효과적인 검색 에이전트로 교육하는 방법
Search, Do not Guess: Teaching Small Language Models to Be Effective Search Agents
검색 도구를 갖춘 에이전트는 지식 집약적인 작업에 효과적인 솔루션으로 떠오르고 있습니다. 대규모 언어 모델(LLM)은 강력한 추론 능력을 보여주지만, 높은 계산 비용으로 인해 검색 에이전트로서의 실용적인 배포가 제한됩니다. 따라서 최근 연구에서는 LLM에서 에이전트의 행동을 추출하여 소규모 언어 모델(SLM)로 구현하는 데 초점을 맞추고 있습니다. 복잡한 다단계 추론 작업에 대한 종합적인 평가를 통해, 우리는 SLM이 LLM보다 적은 파라미터 지식을 가지고 있음에도 불구하고 검색 도구를 덜 자주 사용하고 환각 현상에 더 취약하다는 것을 발견했습니다. 이 문제를 해결하기 위해, 우리는 검색된 증거를 기반으로 답변을 안정적으로 검색하고 생성하도록 SLM을 명시적으로 훈련하는 경량 미세 조정 방법인 exttt{policy}를 제안합니다. LLM에서 추출한 에이전트 방식과 비교하여, 우리의 접근 방식은 Bamboogle에서 17.3점, HotpotQA에서 15.3점의 성능 향상을 보여주며, 벤치마크 전반에 걸쳐 LLM 수준의 결과를 달성합니다. 추가 분석 결과, SLM에서 사용되는 적응형 검색 전략이 종종 성능을 저하시킨다는 것을 알 수 있으며, 이는 안정적인 추론을 위해서는 일관된 검색 행동이 필수적임을 강조합니다.
Agents equipped with search tools have emerged as effective solutions for knowledge-intensive tasks. While Large Language Models (LLMs) exhibit strong reasoning capabilities, their high computational cost limits practical deployment for search agents. Consequently, recent work has focused on distilling agentic behaviors from LLMs into Small Language Models (SLMs). Through comprehensive evaluation on complex multi-hop reasoning tasks, we find that despite possessing less parametric knowledge, SLMs invoke search tools less frequently and are more prone to hallucinations. To address this issue, we propose \policy, a lightweight fine-tuning approach that explicitly trains SLMs to reliably retrieve and generate answers grounded in retrieved evidence. Compared to agent distillation from LLMs, our approach improves performance by 17.3 scores on Bamboogle and 15.3 scores on HotpotQA, achieving LLM-level results across benchmarks. Our further analysis reveals that adaptive search strategies in SLMs often degrade performance, highlighting the necessity of consistent search behavior for reliable reasoning.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.
Log in to request an AI analysis.