2604.21083v1 Apr 22, 2026 cs.CR

대규모 언어 모델 API 게이트웨이에 대한 행동 일관성 및 투명성 분석

Behavioral Consistency and Transparency Analysis on Large Language Model API Gateways

Shichao Pei
Shichao Pei
Citations: 46
h-index: 2
Guanjie Lin
Guanjie Lin
Citations: 15
h-index: 2
Yinxin Wan
Yinxin Wan
Citations: 261
h-index: 8
Tingyi Xu
Tingyi Xu
Citations: 0
h-index: 0
Kuai Xu
Kuai Xu
Citations: 140
h-index: 2
Guoliang Xue
Guoliang Xue
Citations: 75
h-index: 4

다양한 벤더에서 제공하는 모델에 대한 통합 접근 지점으로, 서드파티 대규모 언어 모델(LLM) API 게이트웨이가 빠르게 등장하고 있습니다. 그러나 이러한 게이트웨이의 내부 라우팅, 캐싱 및 청구 정책은 대부분 공개되지 않아, 사용자는 요청이 광고된 모델에 의해 처리되는지, 응답이 상위 API에 충실한지, 그리고 청구서가 공개된 가격 정책을 정확하게 반영하는지에 대한 제한적인 정보만 얻을 수 있습니다. 이러한 문제를 해결하기 위해, 우리는 상업용 LLM 게이트웨이의 행동 일관성과 운영 투명성을 평가하기 위한 경량 블랙박스 측정 프레임워크인 GateScope를 소개합니다. GateScope는 모델 다운그레이드 또는 변경, 숨겨진 내용 잘라내기, 청구 오류 및 지연 시간의 불안정성과 같은 주요 오작동을 감지하도록 설계되었으며, 응답 내용 분석, 다중 턴 대화 성능, 청구 정확성 및 지연 시간 특성이라는 네 가지 중요한 측면에서 게이트웨이를 감사합니다. 10개의 실제 상업용 LLM API 게이트웨이에 대한 우리의 측정 결과는 예상되는 행동과 실제 행동 간에 빈번한 차이가 있음을 보여줍니다. 여기에는 모델의 은밀한 교체, 메모리 유지 능력의 저하, 발표된 가격과의 편차, 그리고 플랫폼 간 지연 시간 안정성의 상당한 변화가 포함됩니다.

Original Abstract

Third-party Large Language Model (LLM) API gateways are rapidly emerging as unified access points to models offered by multiple vendors. However, the internal routing, caching, and billing policies of these gateways are largely undisclosed, leaving users with limited visibility into whether requests are served by the advertised models, whether responses remain faithful to upstream APIs, or whether invoices accurately reflect public pricing policies. To address this gap, we introduce GateScope, a lightweight black-box measurement framework for evaluating behavioral consistency and operational transparency in commercial LLM gateways. GateScope is designed to detect key misbehaviors, including model downgrading or switching, silent truncation, billing inaccuracies, and instability in latency by auditing gateways along four critical dimensions: response content analysis, multi-turn conversation performance, billing accuracy, and latency characteristics. Our measurements across 10 real-world commercial LLM API gateways reveal frequent gaps between expected and actual behaviors, including silent model substitutions, degraded memory retention, deviations from announced pricing, and substantial variation in latency stability across platforms.

0 Citations
0 Influential
4 Altmetric
20.0 Score
Original PDF

No Analysis Report Yet

This paper hasn't been analyzed by Gemini yet.

Log in to request an AI analysis.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!