분산 LLM 추론 네트워크를 위한 적응적이고 견고한 비용 인지 품질 검증 방법
Adaptive and Robust Cost-Aware Proof of Quality for Decentralized LLM Inference Networks
분산 대규모 언어 모델(LLM) 추론 네트워크는 다양한 지연 시간과 비용 조건에서 고품질 출력을 보상하기 위한 경량 메커니즘이 필요합니다. 품질 검증(Proof of Quality)은 후보 출력에 대한 점수를 매기는 평가 노드를 샘플링하여 확장 가능한 검증을 제공하며, 이러한 점수를 집계하여 보상을 결정하는 합의 신호를 생성합니다. 그러나 평가자 간의 이질성과 악의적인 점수 조작은 합의를 왜곡하고 보상을 과대화하여, 개방형 참여 환경에서 인센티브 정렬을 약화시킬 수 있습니다. 본 논문에서는 비용 인지 품질 검증 메커니즘을 확장하여 적대적 공격에 강한 합의 형성을 추가합니다. 우리는 중앙값 및 절단 평균과 같은 견고한 집계 규칙과, 편차 신호를 기반으로 평가자 가중치를 업데이트하는 적응형 신뢰 가중 합의를 연구합니다. 질문 답변 및 요약 작업에서, 기준점(ground truth)을 활용한 오프라인 분석을 통해 평가자 신뢰도를 정량화하고, 평가자 간의 큰 편차, 특히 작업 의존적인 불일치를 확인합니다. 또한, 노이즈 주입, 부스팅, 파괴, 간헐적 조작 등 네 가지 적대적 전략에 대한 견고성을 평가하며, 다양한 악의적 비율 및 평가자 샘플 크기에 대한 실험을 수행합니다. 결과는 견고한 집계가 기준점과의 합의 일치도를 향상시키고 단순 평균 방식보다 노이즈 및 전략적 공격에 대한 민감도를 감소시킨다는 것을 보여줍니다. 또한, 평가자 샘플링이 도입하는 운영상의 트레이드오프를 분석한 결과, 더 큰 평가자 집단은 평가자 보상을 감소시키고 보상 변동성을 증가시키는 반면, 추론 보상은 상대적으로 안정적임을 확인했습니다. 이러한 연구 결과는 비용 인지 품질 검증의 기본 구성 요소로서 견고한 합의의 중요성을 강조하며, 적대적 위험 및 자원 제약 조건 하에서 평가자 샘플링 매개변수를 선택하기 위한 실질적인 지침을 제공합니다.
Decentralized large language model inference networks require lightweight mechanisms to reward high quality outputs under heterogeneous latency and cost. Proof of Quality provides scalable verification by sampling evaluator nodes that score candidate outputs, then aggregating their scores into a consensus signal that determines rewards. However, evaluator heterogeneity and malicious score manipulation can distort consensus and inflate payouts, which weakens incentive alignment in open participation settings. This paper extends a cost-aware Proof of Quality mechanism by adding adversary-resilient consensus formation. We study robust aggregation rules, including median and trimmed mean, and an adaptive trust-weighted consensus that updates evaluator weights from deviation signals. Using question answering and summarization workloads with a ground truth proxy for offline analysis, we quantify evaluator reliability and show strong variance across evaluators, including task-dependent misalignment that can invert correlations. We then evaluate robustness under four adversarial strategies, including noise injection, boosting, sabotage, and intermittent manipulation, across a sweep of malicious ratios and evaluator sample sizes. Our results show that robust aggregation improves consensus alignment with the ground truth proxy and reduces sensitivity to noisy and strategic attacks compared with simple averaging. We further characterize the operational trade-off introduced by evaluator sampling, where larger evaluator sets reduce evaluator rewards and increase payoff variance while inference rewards remain relatively stable in our configuration. These findings motivate robust consensus as a default component for cost-aware Proof of Quality and provide practical guidance for selecting evaluator sampling parameters under adversarial risk and resource constraints.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.
Log in to request an AI analysis.