TensorCommitments: 언어 모델을 위한 경량화된 검증 가능한 추론
TensorCommitments: A Lightweight Verifiable Inference for Language Models
대부분의 대규모 언어 모델(LLM)은 외부 클라우드에서 실행됩니다. 사용자는 프롬프트를 전송하고 추론 비용을 지불하며, 원격 GPU가 LLM을 악의적인 조작 없이 실행한다는 것을 신뢰해야 합니다. 본 연구는 검증 가능한 LLM 추론을 어떻게 달성할 수 있는지 질문합니다. 즉, 서비스 제공자(prover)가 LLM을 다시 실행하지 않고도 클라이언트(verifier)에게 추론이 올바르게 실행되었음을 증명해야 합니다. 기존의 암호학적 방법은 LLM 규모에서는 너무 느리고, 암호학적이지 않은 방법은 강력한 검증자 GPU를 필요로 합니다. 본 연구에서는 텐서 기반의 추론 증명 방식인 TensorCommitments (TC)를 제안합니다. TC는 LLM 추론을 커밋먼트(commitment)에 연결하며, 커밋먼트는 변경 불가능한 태그로서, 조작이 발생하면 깨집니다. 이 커밋먼트는 다변수 Terkle 트리로 구성됩니다. LLaMA2 모델에서 TC는 추론 시간 대비 0.97%의 서비스 제공자 시간과 0.12%의 검증자 시간을 추가하는 동시에, 검증자 GPU를 필요로 하는 기존 연구보다 최대 48% 더 강력한 LLM 공격 방어 기능을 제공합니다.
Most large language models (LLMs) run on external clouds: users send a prompt, pay for inference, and must trust that the remote GPU executes the LLM without any adversarial tampering. We critically ask how to achieve verifiable LLM inference, where a prover (the service) must convince a verifier (the client) that an inference was run correctly without rerunning the LLM. Existing cryptographic works are too slow at the LLM scale, while non-cryptographic ones require a strong verifier GPU. We propose TensorCommitments (TCs), a tensor-native proof-of-inference scheme. TC binds the LLM inference to a commitment, an irreversible tag that breaks under tampering, organized in our multivariate Terkle Trees. For LLaMA2, TC adds only 0.97% prover and 0.12% verifier time over inference while improving robustness to tailored LLM attacks by up to 48% over the best prior work requiring a verifier GPU.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.