CIRCLE: 현실적인 관점에서 인공지능을 평가하기 위한 프레임워크
CIRCLE: A Framework for Evaluating AI from a Real-World Lens
본 논문에서는 CIRCLE이라는 여섯 단계로 구성된, 라이프사이클 기반의 프레임워크를 제안합니다. 이 프레임워크는 모델 중심의 성능 지표와 실제 배포 환경에서의 인공지능의 결과 사이의 현실 간극을 해소하는 것을 목표로 합니다. 기존의 MLOps와 같은 프레임워크는 시스템 안정성에 초점을 맞추고, 벤치마크는 추상적인 기능만을 측정하는 반면, 인공지능 기술 스택 외부의 의사결정자들은 실제 사용자의 다양성과 제약 조건 하에서 인공지능 기술이 어떻게 작동하는지에 대한 체계적인 증거를 얻기 어렵습니다. CIRCLE은 TEVV (테스트, 평가, 검증 및 확인)의 검증 단계를 구체화하여, 스택 외부의 이해관계자들의 우려사항을 측정 가능한 신호로 전환하는 방식을 공식화합니다. CIRCLE은 종종 특정 영역에 국한되는 참여형 설계나, 주로 사후적으로 수행되는 알고리즘 감사와 달리, 맥락에 민감한 질적 통찰력을 확장 가능한 정량적 지표와 연결하는 체계적인 방법을 제공합니다. CIRCLE은 현장 테스트, 레드팀 공격, 장기 연구와 같은 다양한 방법을 통합하여 조정된 파이프라인을 구축함으로써, 다양한 환경에서 비교 가능하면서도 지역적 맥락에 민감한 체계적인 지식을 생성합니다. 이를 통해 이론적인 능력보다는 실제 결과에 기반한 거버넌스를 가능하게 할 수 있습니다.
This paper proposes CIRCLE, a six-stage, lifecycle-based framework to bridge the reality gap between model-centric performance metrics and AI's materialized outcomes in deployment. While existing frameworks like MLOps focus on system stability and benchmarks measure abstract capabilities, decision-makers outside the AI stack lack systematic evidence about the behavior of AI technologies under real-world user variability and constraints. CIRCLE operationalizes the Validation phase of TEVV (Test, Evaluation, Verification, and Validation) by formalizing the translation of stakeholder concerns outside the stack into measurable signals. Unlike participatory design, which often remains localized, or algorithmic audits, which are often retrospective, CIRCLE provides a structured, prospective protocol for linking context-sensitive qualitative insights to scalable quantitative metrics. By integrating methods such as field testing, red teaming, and longitudinal studies into a coordinated pipeline, CIRCLE produces systematic knowledge: evidence that is comparable across sites yet sensitive to local context. This can enable governance based on materialized downstream effects rather than theoretical capabilities.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.