COINBench: 개별적인 관점을 넘어 집단적 의도 이해로 나아가는 연구
COINBench: Moving Beyond Individual Perspectives to Collective Intent Understanding
대규모 언어 모델(LLM)은 노이즈, 상충, 비선형적인 담론에 대한 정교한 추론 능력을 요구하는 고차원적인 인지적 과제인 인간 의도를 이해해야 합니다. LLM은 개별적인 지시 사항을 따는 데 뛰어난 성능을 보이지만, 다양한 출처의 공개 토론에서 합의를 도출하고, 모순을 해결하며, 잠재적인 추세를 추론하는 '집단적 의도'를 파악하는 능력은 아직 충분히 탐구되지 않았습니다. 이러한 격차를 해소하기 위해, 소비자 분야에서 LLM의 집단적 의도 이해 능력을 평가하기 위해 특별히 설계된 동적이고 실시간으로 업데이트되는 벤치마크인 COIN-BENCH를 소개합니다. 기존 벤치마크가 거래 결과에 초점을 맞추는 것과 달리, COIN-BENCH는 의도를 명시적인 시나리오부터 심층적인 인과 추론에 이르기까지 계층적인 인지 구조로 정의합니다. 우리는 규칙 기반 방법과 LLM을 심판으로 활용하는 접근 방식을 결합한 견고한 평가 파이프라인을 구현했습니다. 이 프레임워크는 계층적인 인지 구조화를 위한 COIN-TREE와 원본 집단적 인간 토론을 분석하는 데 전문가 수준의 정확성을 보장하기 위한 검색 증강 검증(COIN-RAG)을 포함합니다. 20개의 최첨단 LLM을 깊이, 폭, 정보성, 정확성이라는 네 가지 측면에서 광범위하게 평가한 결과, 현재 모델은 표면적인 수준의 통합은 가능하지만, 복잡한 의도 통합에 필요한 분석적 깊이는 여전히 부족하다는 것을 알 수 있었습니다. COIN-BENCH는 LLM을 단순한 지시 사항 준수 모델에서 벗어나 실제 세계의 집단적 목소리를 해독할 수 있는 전문가 수준의 분석 에이전트로 발전시키는 새로운 기준을 제시합니다. COIN-BENCH 프로젝트 페이지를 참조하십시오.
Understanding human intent is a high-level cognitive challenge for Large Language Models (LLMs), requiring sophisticated reasoning over noisy, conflicting, and non-linear discourse. While LLMs excel at following individual instructions, their ability to distill Collective Intent - the process of extracting consensus, resolving contradictions, and inferring latent trends from multi-source public discussions - remains largely unexplored. To bridge this gap, we introduce COIN-BENCH, a dynamic, real-world, live-updating benchmark specifically designed to evaluate LLMs on collective intent understanding within the consumer domain. Unlike traditional benchmarks that focus on transactional outcomes, COIN-BENCH operationalizes intent as a hierarchical cognitive structure, ranging from explicit scenarios to deep causal reasoning. We implement a robust evaluation pipeline that combines a rule-based method with an LLM-as-the-Judge approach. This framework incorporates COIN-TREE for hierarchical cognitive structuring and retrieval-augmented verification (COIN-RAG) to ensure expert-level precision in analyzing raw, collective human discussions. An extensive evaluation of 20 state-of-the-art LLMs across four dimensions - depth, breadth, informativeness, and correctness - reveals that while current models can handle surface-level aggregation, they still struggle with the analytical depth required for complex intent synthesis. COIN-BENCH establishes a new standard for advancing LLMs from passive instruction followers to expert-level analytical agents capable of deciphering the collective voice of the real world. See our project page on COIN-BENCH.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.
Log in to request an AI analysis.