2604.06765v1 Apr 08, 2026 cs.CL

TeamLLM: 다단계 상황 인식 작업을 위한 인간과 유사한 팀 기반 협업 프레임워크

TeamLLM: A Human-Like Team-Oriented Collaboration Framework for Multi-Step Contextualized Tasks

Wei Xia
Wei Xia
Citations: 82
h-index: 5
Xiangyu Wang
Xiangyu Wang
Citations: 1
h-index: 1
Jin Wu
Jin Wu
Citations: 12
h-index: 1
Haoran Shi
Haoran Shi
Citations: 13
h-index: 1
Jiarui Yu
Jiarui Yu
Citations: 39
h-index: 2
Chanjin Zheng
Chanjin Zheng
Citations: 33
h-index: 3

최근에는 상황 인식 작업을 해결하기 위해 여러 개의 대규모 언어 모델(LLM)을 활용하는 프레임워크들이 제안되었습니다. 그러나 이러한 프레임워크들은 인간 팀의 역할 분담을 명시적으로 모방하지 않아 단일 관점을 초래할 수 있으며, 이는 다단계 상황 인식 작업의 성능을 저하시킬 수 있습니다. 이러한 문제를 해결하기 위해, 우리는 인간과 유사한 팀 기반 협업을 위한 다중 LLM 프레임워크인 TeamLLM을 제안합니다. TeamLLM은 서로 다른 역할을 수행하는 네 가지 팀 역할을 채택하고, 다단계 상황 인식 작업을 위한 세 단계의 다중 LLM 협업을 사용합니다. TeamLLM의 다단계 상황 인식 작업에 대한 효과성을 평가하기 위해, 우리는 상황 기반 및 절차적 구조를 갖는 작업(CGPST)을 제안하고 CGPST 벤치마크를 구축했습니다. 이 벤치마크는 상황 기반, 절차적 구조, 프로세스 지향 평가 및 다차원 평가라는 네 가지 핵심 기능을 갖습니다. 우리는 CGPST에서 10개의 인기 있는 LLM을 전체 수준, 단계 수준 및 차원 수준에서 평가했습니다. 결과는 TeamLLM이 CGPST에서 성능을 크게 향상시켰음을 보여줍니다. 우리는 10개의 LLM의 시나리오, 전체 프로세스 응답 및 인간 평가 점수를 포함하는 벤치마크를 공개합니다. 코드와 데이터는 https://anonymous.4open.science/r/TeamLLM-anonymous-C50E/ 에서 확인할 수 있습니다.

Original Abstract

Recently, multi-Large Language Model (LLM) frameworks have been proposed to solve contextualized tasks. However, these frameworks do not explicitly emulate human team role division, which may lead to a single perspective, thereby weakening performance on multi-step contextualized tasks. To address this issue, we propose TeamLLM, a human-like Team-Oriented Multi-LLM Collaboration Framework. TeamLLM adopts four team roles with distinct division and employs a three-phase multi-LLM collaboration for multi-step contextualized tasks. To evaluate the effectiveness of TeamLLM on multi-step contextualized tasks, we propose Contextually-Grounded and Procedurally-Structured tasks (CGPST) and construct the CGPST benchmark. This benchmark has four core features: contextual grounding, procedural structure, process-oriented evaluation and multi-dimensional assessment. We evaluate ten popular LLMs on CGPST at overall-level, step-level, and dimension-level. Results show that TeamLLM substantially improves performance on CGPST. We release the benchmark with scenarios, full-process responses and human scores from ten LLMs. The code and data are available at https://anonymous.4open.science/r/TeamLLM-anonymous-C50E/.

0 Citations
0 Influential
2.5 Altmetric
12.5 Score
Original PDF

No Analysis Report Yet

This paper hasn't been analyzed by Gemini yet.

Log in to request an AI analysis.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!