2603.04028v1 Mar 04, 2026 cs.LG

프루프 오브 퀄리티(Proof of Quality)를 활용한 분산 LLM 추론을 위한 다차원 품질 평가 프레임워크

A Multi-Dimensional Quality Scoring Framework for Decentralized LLM Inference with Proof of Quality

Arther Tian
Arther Tian
Citations: 7
h-index: 2
Alex Ding
Alex Ding
Citations: 1
h-index: 1
Simon Wu
Simon Wu
Citations: 4
h-index: 1
Aaron Chan
Aaron Chan
Citations: 95
h-index: 4
Frank Chen
Frank Chen
Citations: 7
h-index: 2

분산 대규모 언어 모델(LLM) 추론 네트워크는 다양한 컴퓨팅 자원을 활용하여 서비스 규모를 확장할 수 있지만, 출력 품질을 평가하기 위한 경량화되고 인센티브 호환 가능한 메커니즘이 필요합니다. 기존 연구에서는 평가자 간의 이질성 및 악의적인 행동을 고려하여 보상을 분배하기 위한 비용 인지형 프루프 오브 퀄리티(PoQ) 및 적응형 로버스트 PoQ를 제안했습니다. 본 논문에서는 품질 신호 자체에 초점을 맞추어, 모델 및 비용 사전 정보, 구조 품질, 의미 품질, 질의-출력 일관성, 합의/불확실성 등 다양한 차원으로 출력 품질을 분해하는 다차원 품질 평가 프레임워크를 제안합니다. 질의응답 및 요약 작업에서 생성된 출력 데이터를 활용하여 각 차원의 신뢰성을 체계적으로 분석한 결과, 합리적으로 보이는 차원들도 작업에 따라 달라지거나, 교정 없이 기준 품질과 음의 상관관계를 나타낼 수 있음을 확인했습니다. 기본적으로 복합 점수는 강력한 단일 의미 평가 모델보다 성능이 낮지만, 신뢰할 수 없는 차원을 제거하고 가중치를 재정규화하면, 교정된 복합 점수를 얻을 수 있으며, 이는 최상의 단일 평가 모델 및 합의 기준 모델과 동등하거나 더 나은 성능을 보입니다. 마지막으로, 복합 점수를 PoQ의 품질 신호로 통합하고, 적대적인 평가자 공격 하에서 강력한 집계 및 적응형 신뢰 가중치를 통해 상호 보완적인 이점을 제공함을 보여줍니다.

Original Abstract

Decentralized large language model (LLM) inference networks can pool heterogeneous compute to scale serving, but they require lightweight and incentive-compatible mechanisms to assess output quality. Prior work introduced cost-aware Proof of Quality (PoQ) and adaptive robust PoQ to allocate rewards under evaluator heterogeneity and adversarial behavior. In this paper, we focus on the quality signal itself and propose a multi-dimensional quality scoring framework that decomposes output quality into modular dimensions, including model and cost priors, structure quality, semantic quality, query-output alignment, and agreement/uncertainty. Using logged outputs from QA and summarization tasks, we systematically audit dimension reliability and show that seemingly reasonable dimensions can be task-dependent and even negatively correlated with reference quality without calibration. While the default composite underperforms a strong single semantic evaluator, ablations reveal that removing unreliable dimensions and re-normalizing weights yields a calibrated composite that matches or exceeds the best single- evaluator and consensus baselines. Finally, we integrate the composite score as a drop-in quality signal in PoQ and demonstrate complementary benefits with robust aggregation and adaptive trust weighting under adversarial evaluator attacks.

1 Citations
0 Influential
2 Altmetric
11.0 Score
Original PDF

No Analysis Report Yet

This paper hasn't been analyzed by Gemini yet.

Log in to request an AI analysis.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!