LLM 기반 검색을 위한 생성 엔진에서 출력 순위 제어: CORE 방법론
Controlling Output Rankings in Generative Engines for LLM-based Search
대규모 언어 모델(LLM)의 발전으로 사용자들이 제품을 검색하고 선택하는 방식이 변화하고 있습니다. LLM 기반 검색, 즉 생성 엔진은 기존의 온라인 검색 결과와 달리, 사용자가 직접 옵션을 탐색할 필요 없이 직접적인 제품 추천을 제공합니다. 그러나 이러한 추천은 LLM의 초기 검색 순서에 크게 영향을 받으며, 이는 작은 기업과 독립적인 창작자들의 가시성을 제한하여 불리한 결과를 초래합니다. 본 연구에서는 LLM 기반 검색을 위한 생성 엔진에서 출력 순위를 제어하는 최적화 방법인 CORE를 제안합니다. LLM과 검색 엔진 간의 상호 작용은 블랙박스이기 때문에, CORE는 검색 엔진이 반환하는 콘텐츠를 주요 대상으로 삼아 출력 순위에 영향을 미치도록 설계되었습니다. 구체적으로, CORE는 검색된 콘텐츠에 전략적으로 설계된 최적화 콘텐츠를 추가하여 출력 순위를 조정합니다. 우리는 문자 기반, 추론 기반, 리뷰 기반의 세 가지 유형의 최적화 콘텐츠를 소개하며, 이러한 콘텐츠가 출력 순위를 효과적으로 조정하는 것을 보여줍니다. CORE의 성능을 실제 환경에서 평가하기 위해, 15개의 제품 카테고리와 각 카테고리당 200개의 제품으로 구성된 대규모 벤치마크인 ProductBench를 개발했습니다. 각 제품은 Amazon 검색 인터페이스에서 수집된 상위 10개 추천 제품과 연결되어 있습니다. GPT-4o, Gemini-2.5, Claude-4, Grok-3 등 검색 기능을 갖춘 네 가지 LLM에 대한 광범위한 실험 결과, CORE는 평균적으로 91.4%의 '상위 5개'에서, 86.6%의 '상위 3개'에서, 그리고 80.3%의 '상위 1개'에서 성공적인 홍보율을 달성했으며, 기존의 순위 조작 방법보다 뛰어난 성능을 보였습니다. 동시에, 최적화된 콘텐츠의 자연스러움을 유지하는 데에도 성공했습니다.
The way customers search for and choose products is changing with the rise of large language models (LLMs). LLM-based search, or generative engines, provides direct product recommendations to users, rather than traditional online search results that require users to explore options themselves. However, these recommendations are strongly influenced by the initial retrieval order of LLMs, which disadvantages small businesses and independent creators by limiting their visibility. In this work, we propose CORE, an optimization method that \textbf{C}ontrols \textbf{O}utput \textbf{R}ankings in g\textbf{E}nerative Engines for LLM-based search. Since the LLM's interactions with the search engine are black-box, CORE targets the content returned by search engines as the primary means of influencing output rankings. Specifically, CORE optimizes retrieved content by appending strategically designed optimization content to steer the ranking of outputs. We introduce three types of optimization content: string-based, reasoning-based, and review-based, demonstrating their effectiveness in shaping output rankings. To evaluate CORE in realistic settings, we introduce ProductBench, a large-scale benchmark with 15 product categories and 200 products per category, where each product is associated with its top-10 recommendations collected from Amazon's search interface. Extensive experiments on four LLMs with search capabilities (GPT-4o, Gemini-2.5, Claude-4, and Grok-3) demonstrate that CORE achieves an average Promotion Success Rate of \textbf{91.4\% @Top-5}, \textbf{86.6\% @Top-3}, and \textbf{80.3\% @Top-1}, across 15 product categories, outperforming existing ranking manipulation methods while preserving the fluency of optimized content.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.
Log in to request an AI analysis.