GLEaN: 텍스트-이미지 모델의 편향 탐지 방법 - 대중의 이해를 위한 접근
GLEaN: A Text-to-image Bias Detection Approach for Public Comprehension
텍스트-이미지(T2I) 모델과 그 안에 내재된 편향은 대중이 접하는 시각 콘텐츠에 점점 더 큰 영향을 미치고 있습니다. 연구자들은 T2I 시스템의 편향 측정, 감사 및 완화에 대한 많은 연구 결과를 발표했지만, 이러한 방법은 주로 기술 전문가를 대상으로 하며, 일반 대중이 이해하기 어렵다는 한계가 있습니다. 본 논문에서는 GLEaN(Generative Likeness Evaluation at N-Scale)이라는, 초상화 기반의 설명 가능성 파이프라인을 소개합니다. GLEaN은 T2I 모델의 편향을 시각적으로 이해하기 쉽도록 설계되었으며, 광범위한 대중을 대상으로 합니다. GLEaN은 세 단계로 구성됩니다. 첫째, 신분 관련 프롬프트를 사용하여 대규모 이미지를 자동으로 생성합니다. 둘째, 얼굴 특징점 기반 필터링 및 공간 정렬을 수행합니다. 셋째, 중앙 픽셀 값을 사용하여 모델의 일반적인 경향을 하나의 대표적인 초상화로 표현합니다. 결과적으로 생성된 초상화는 통계적 배경 지식 없이도 쉽게 해석할 수 있습니다. 예를 들어, 사용자는 '의사' 또는 '범죄자'라는 프롬프트에 대해 모델이 어떤 이미지를 '상상'하는지 한눈에 파악할 수 있습니다. 본 논문에서는 Stable Diffusion XL 모델을 사용하여 40개의 사회적 및 직업적 신분 관련 프롬프트에 대한 실험을 진행했으며, 문서화된 편향을 재현하고 피부색과 예측된 감정 간의 새로운 연관성을 보여주는 초상화를 생성했습니다. 사용자 연구(N = 291) 결과, GLEaN 초상화는 기존의 데이터 테이블만큼 효과적으로 편향을 전달하지만, 시청 시간이 훨씬 적게 걸립니다. 또한, 이 방법은 생성된 결과물만 사용하므로, 모델 내부 정보에 접근할 수 없는 블랙박스 시스템에서도 적용할 수 있습니다. GLEaN은 대중의 이해를 위해 설계된, 확장 가능하고 모델에 독립적인 편향 설명 방법이며, GitHub 저장소(https://github.com/cultureiolab/GLEaN)에서 공개적으로 이용할 수 있습니다.
Text-to-image (T2I) models, and their encoded biases, increasingly shape the visual media the public encounters. While researchers have produced a rich body of work on bias measurement, auditing, and mitigation in T2I systems, those methods largely target technical stakeholders, leaving a gap in public legibility. We introduce GLEaN (Generative Likeness Evaluation at N-Scale), a portrait-based explainability pipeline designed to make T2I model biases visually understandable to a broad audience. GLEaN comprises three stages: automated large-scale image generation from identity prompts, facial landmark-based filtering and spatial alignment, and median-pixel composition that distills a model's central tendency into a single representative portrait. The resulting composites require no statistical background to interpret; a viewer can see, at a glance, who a model 'imagines' when prompted with 'a doctor' versus a 'felon.' We demonstrate GLEaN on Stable Diffusion XL across 40 social and occupational identity prompts, producing composites that reproduce documented biases and surface new associations between skin tone and predicted emotion. We find in a between-subjects user study (N = 291) that GLEaN portraits communicate biases as effectively as conventional data tables, but require significantly less viewing time. Because the method relies solely on generated outputs, it can also be replicated on any black-box and closed-weight systems without access to model internals. GLEaN offers a scalable, model-agnostic approach to bias explainability, purpose-built for public comprehension, and is publicly available at https://github.com/cultureiolab/GLEaN.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.
Log in to request an AI analysis.