2602.03285v1 Feb 03, 2026 cs.AI

MeetBench-XL: 실시간 회의를 위한 보정된 다차원 평가 및 학습된 이중 정책 에이전트

MeetBench-XL: Calibrated Multi-Dimensional Evaluation and Learned Dual-Policy Agents for Real-Time Meetings

Yuelin Hu
Yuelin Hu
Citations: 5
h-index: 2
Hongwei Hu
Hongwei Hu
Citations: 77
h-index: 4
Jun Xu
Jun Xu
Citations: 32
h-index: 3
Bingcong Lu
Bingcong Lu
Citations: 29
h-index: 3
Zhengxue Cheng
Zhengxue Cheng
Citations: 263
h-index: 9
Ronghua Wu
Ronghua Wu
Citations: 32
h-index: 3
Li Song
Li Song
Citations: 71
h-index: 3

기업 회의 환경은 엄격한 지연 시간, 비용 및 개인정보 보호 제약 하에서, 라이브 토론 중의 신속한 팩트 체크부터 전략적 계획 수립을 위한 교차 회의 분석에 이르기까지 다양한 운영 작업을 처리하는 AI 어시스턴트를 필요로 합니다. 기존 회의 벤치마크는 주로 단순화된 질의응답에 초점을 맞추고 있어, 다중 이해관계자 협업에서 질의가 유기적으로 발생하고, 긴 시간적 맥락에 걸쳐 있으며, 도구 증강 추론이 필요한 실제 기업 워크플로우를 반영하지 못합니다. 우리는 근거 있는 데이터셋과 학습된 에이전트 프레임워크를 통해 이러한 격차를 해소합니다. 첫째, 총 140시간 분량의 기업 회의 231건에서 추출한 이중 언어 및 멀티모달 코퍼스인 MeetAll을 소개합니다. 질문들은 도메인 전문가 검토 및 인간 식별력 연구를 통해 검증된, 기업 현장 정보를 반영한 프로토콜을 사용하여 생성되었습니다. 순수 합성 벤치마크와 달리, 이 프로토콜은 금융, 의료, 기술 분야의 이해관계자 인터뷰를 통해 보정된 네 가지 기업 핵심 차원(인지 부하, 시간적 맥락 범위, 도메인 전문성, 실행 가능한 작업 수행)에 기반을 두고 있습니다. 둘째, 사실적 충실도, 의도 일치성, 응답 효율성, 구조적 명확성 및 완전성을 측정하며 인간의 판단에 부합하는 다차원 평가 프로토콜인 MeetBench XL을 제안합니다. 셋째, 빠른 추론 경로와 느린 추론 경로 간의 질의 라우팅, 그리고 검색(retrieval), 교차 회의 통합, 웹 검색을 포함한 도구 호출을 공동으로 최적화하는 학습된 이중 정책 에이전트인 MeetMaster XL을 제시합니다. 경량 분류기를 통해 최소한의 오버헤드로 정확한 라우팅이 가능하며, 단일 모델 베이스라인 대비 우수한 품질-지연 시간 트레이드오프를 달성합니다. 상용 시스템과의 비교 실험을 통해 일관된 성능 향상을 확인했으며, 이는 소거 연구(ablation studies), 강건성 테스트, 실제 배포 사례 연구를 통해 뒷받침됩니다. 리소스: https://github.com/huyuelin/MeetBench

Original Abstract

Enterprise meeting environments require AI assistants that handle diverse operational tasks, from rapid fact checking during live discussions to cross meeting analysis for strategic planning, under strict latency, cost, and privacy constraints. Existing meeting benchmarks mainly focus on simplified question answering and fail to reflect real world enterprise workflows, where queries arise organically from multi stakeholder collaboration, span long temporal contexts, and require tool augmented reasoning. We address this gap through a grounded dataset and a learned agent framework. First, we introduce MeetAll, a bilingual and multimodal corpus derived from 231 enterprise meetings totaling 140 hours. Questions are injected using an enterprise informed protocol validated by domain expert review and human discriminability studies. Unlike purely synthetic benchmarks, this protocol is grounded in four enterprise critical dimensions: cognitive load, temporal context span, domain expertise, and actionable task execution, calibrated through interviews with stakeholders across finance, healthcare, and technology sectors. Second, we propose MeetBench XL, a multi dimensional evaluation protocol aligned with human judgment that measures factual fidelity, intent alignment, response efficiency, structural clarity, and completeness. Third, we present MeetMaster XL, a learned dual policy agent that jointly optimizes query routing between fast and slow reasoning paths and tool invocation, including retrieval, cross meeting aggregation, and web search. A lightweight classifier enables accurate routing with minimal overhead, achieving a superior quality latency tradeoff over single model baselines. Experiments against commercial systems show consistent gains, supported by ablations, robustness tests, and a real world deployment case study.Resources: https://github.com/huyuelin/MeetBench.

0 Citations
0 Influential
27.9657359028 Altmetric
139.8 Score
Original PDF
1

No Analysis Report Yet

This paper hasn't been analyzed by Gemini yet.

Log in to request an AI analysis.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!