TeamLLM: 다단계 상황 인식 작업을 위한 인간과 유사한 팀 기반 협업 프레임워크
TeamLLM: A Human-Like Team-Oriented Collaboration Framework for Multi-Step Contextualized Tasks
최근에는 상황 인식 작업을 해결하기 위해 여러 개의 대규모 언어 모델(LLM)을 활용하는 프레임워크들이 제안되었습니다. 그러나 이러한 프레임워크들은 인간 팀의 역할 분담을 명시적으로 모방하지 않아 단일 관점을 초래할 수 있으며, 이는 다단계 상황 인식 작업의 성능을 저하시킬 수 있습니다. 이러한 문제를 해결하기 위해, 우리는 인간과 유사한 팀 기반 협업을 위한 다중 LLM 프레임워크인 TeamLLM을 제안합니다. TeamLLM은 서로 다른 역할을 수행하는 네 가지 팀 역할을 채택하고, 다단계 상황 인식 작업을 위한 세 단계의 다중 LLM 협업을 사용합니다. TeamLLM의 다단계 상황 인식 작업에 대한 효과성을 평가하기 위해, 우리는 상황 기반 및 절차적 구조를 갖는 작업(CGPST)을 제안하고 CGPST 벤치마크를 구축했습니다. 이 벤치마크는 상황 기반, 절차적 구조, 프로세스 지향 평가 및 다차원 평가라는 네 가지 핵심 기능을 갖습니다. 우리는 CGPST에서 10개의 인기 있는 LLM을 전체 수준, 단계 수준 및 차원 수준에서 평가했습니다. 결과는 TeamLLM이 CGPST에서 성능을 크게 향상시켰음을 보여줍니다. 우리는 10개의 LLM의 시나리오, 전체 프로세스 응답 및 인간 평가 점수를 포함하는 벤치마크를 공개합니다. 코드와 데이터는 https://anonymous.4open.science/r/TeamLLM-anonymous-C50E/ 에서 확인할 수 있습니다.
Recently, multi-Large Language Model (LLM) frameworks have been proposed to solve contextualized tasks. However, these frameworks do not explicitly emulate human team role division, which may lead to a single perspective, thereby weakening performance on multi-step contextualized tasks. To address this issue, we propose TeamLLM, a human-like Team-Oriented Multi-LLM Collaboration Framework. TeamLLM adopts four team roles with distinct division and employs a three-phase multi-LLM collaboration for multi-step contextualized tasks. To evaluate the effectiveness of TeamLLM on multi-step contextualized tasks, we propose Contextually-Grounded and Procedurally-Structured tasks (CGPST) and construct the CGPST benchmark. This benchmark has four core features: contextual grounding, procedural structure, process-oriented evaluation and multi-dimensional assessment. We evaluate ten popular LLMs on CGPST at overall-level, step-level, and dimension-level. Results show that TeamLLM substantially improves performance on CGPST. We release the benchmark with scenarios, full-process responses and human scores from ten LLMs. The code and data are available at https://anonymous.4open.science/r/TeamLLM-anonymous-C50E/.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.
Log in to request an AI analysis.