2601.10527v2 Jan 15, 2026 cs.AI

GPT-5.2, Gemini 3 Pro, Qwen3-VL, Grok 4.1 Fast, Nano Banana Pro 및 Seedream 4.5에 대한 안전성 보고서

A Safety Report on GPT-5.2, Gemini 3 Pro, Qwen3-VL, Grok 4.1 Fast, Nano Banana Pro, and Seedream 4.5

Hui Xue
Hui Xue
Citations: 90
h-index: 4
Zuxuan Wu
Zuxuan Wu
Citations: 11,846
h-index: 58
Yutao Wu
Yutao Wu
Citations: 22
h-index: 1
Yingshui Tan
Yingshui Tan
Citations: 1
h-index: 1
Yifan Ding
Yifan Ding
Citations: 81
h-index: 3
Yu-Gang Jiang
Yu-Gang Jiang
Citations: 1,147
h-index: 14
Xingjun Ma
Xingjun Ma
Citations: 497
h-index: 12
Yixu Wang
Yixu Wang
Citations: 327
h-index: 10
Hengyuan Xu
Hengyuan Xu
Citations: 99
h-index: 5
Yunhan Zhao
Yunhan Zhao
Citations: 176
h-index: 6
Jiabin Hua
Jiabin Hua
Citations: 0
h-index: 0
Ranjie Duan
Ranjie Duan
Citations: 980
h-index: 11
Yifeng Gao
Yifeng Gao
Citations: 85
h-index: 4
Yunhao Chen
Yunhao Chen
Citations: 13
h-index: 1
Xin Wang
Xin Wang
Citations: 12
h-index: 1
Wei Cheng
Wei Cheng
Citations: 14
h-index: 2
Jingjing Chen
Jingjing Chen
Citations: 0
h-index: 0
Bo Li
Bo Li
Citations: 2,151
h-index: 7
Zilong Wang
Zilong Wang
Citations: 95
h-index: 3
Ming Wen
Ming Wen
Citations: 39
h-index: 3
Jianan Liu
Jianan Liu
Citations: 40
h-index: 3

거대언어모델(LLM)과 멀티모달 거대언어모델(MLLM)의 급격한 발전은 언어와 시각 전반에 걸쳐 추론, 지각 및 생성 능력의 큰 향상을 가져왔으나, 이러한 발전이 안전성 측면에서도 그에 상응하는 개선으로 이어지는지는 여전히 불분명하다. 이는 부분적으로 고립된 모달리티나 위협 모델에만 초점을 맞춘 파편화된 평가 때문이다. 본 보고서에서는 GPT-5.2, Gemini 3 Pro, Qwen3-VL, Grok 4.1 Fast, Nano Banana Pro, Seedream 4.5 등 6가지 프런티어 모델에 대한 통합 안전성 평가를 제시한다. 우리는 벤치마크, 적대적 공격, 다국어 및 규정 준수 평가를 결합한 통합 프로토콜을 사용하여 언어, 시각-언어, 이미지 생성 전반에 걸쳐 각 모델을 평가하였다. 결과를 안전성 리더보드와 모델 프로필로 종합하여 매우 불균형한 안전성 지형을 확인하였다. GPT-5.2는 일관되게 강력하고 균형 잡힌 성능을 보여주는 반면, 다른 모델들은 벤치마크 안전성, 적대적 견고성, 다국어 일반화 및 규제 준수 간에 명확한 상충 관계(trade-off)를 보였다. 표준 벤치마크에서는 강력한 결과를 보였음에도 불구하고, 모든 모델은 적대적 테스트 환경에서 매우 취약했으며, 최악의 경우 안전율이 6% 미만으로 떨어졌다. 텍스트-이미지 모델들은 규제된 시각적 위험 범주에서는 다소 더 강력한 정렬(alignment)을 보여주었으나, 적대적이거나 의미적으로 모호한 프롬프트 앞에서는 여전히 취약했다. 결론적으로, 본 연구 결과는 프런티어 모델의 안전성이 모달리티, 언어, 평가 설계에 의해 형성되는 본질적으로 다차원적인 특성을 가짐을 강조하며, 실제 위험을 더 잘 반영하고 책임감 있는 배포를 이끌기 위해 표준화되고 포괄적인 안전성 평가가 필요함을 시사한다.

Original Abstract

The rapid evolution of Large Language Models (LLMs) and Multimodal Large Language Models (MLLMs) has driven major gains in reasoning, perception, and generation across language and vision, yet whether these advances translate into comparable improvements in safety remains unclear, partly due to fragmented evaluations that focus on isolated modalities or threat models. In this report, we present an integrated safety evaluation of six frontier models--GPT-5.2, Gemini 3 Pro, Qwen3-VL, Grok 4.1 Fast, Nano Banana Pro, and Seedream 4.5--assessing each across language, vision-language, and image generation using a unified protocol that combines benchmark, adversarial, multilingual, and compliance evaluations. By aggregating results into safety leaderboards and model profiles, we reveal a highly uneven safety landscape: while GPT-5.2 demonstrates consistently strong and balanced performance, other models exhibit clear trade-offs across benchmark safety, adversarial robustness, multilingual generalization, and regulatory compliance. Despite strong results under standard benchmarks, all models remain highly vulnerable under adversarial testing, with worst-case safety rates dropping below 6%. Text-to-image models show slightly stronger alignment in regulated visual risk categories, yet remain fragile when faced with adversarial or semantically ambiguous prompts. Overall, these findings highlight that safety in frontier models is inherently multidimensional--shaped by modality, language, and evaluation design--underscoring the need for standardized, holistic safety assessments to better reflect real-world risk and guide responsible deployment.

1 Citations
0 Influential
29 Altmetric
146.0 Score

AI Analysis

Korean Summary

이 논문은 2026년 시점의 최신 프런티어 AI 모델 6종(GPT-5.2, Gemini 3 Pro, Qwen3-VL, Grok 4.1 Fast, Nano Banana Pro, Seedream 4.5)을 대상으로 수행된 포괄적인 안전성 평가 보고서입니다. 연구진은 언어(Language), 비전-언어(Vision-Language), 이미지 생성(Image Generation)의 세 가지 주요 모달리티에 걸쳐 벤치마크 평가, 적대적 공격(Jailbreak), 다국어 평가, 규제 준수(NIST, EU AI Act 등)라는 통합 프로토콜을 적용했습니다. 평가 결과, GPT-5.2가 전반적으로 가장 균형 잡힌 안전성을 보인 반면, Grok 4.1 Fast는 효율성을 위해 안전성을 크게 희생한 것으로 나타났습니다. 특히 모든 모델이 표준 벤치마크에서는 높은 점수를 받았으나, 정교한 적대적 공격 하에서는 최악의 경우 안전율이 6% 미만으로 떨어지는 등 여전히 심각한 취약점을 보였습니다. 이 연구는 모델마다 안전성 확보 전략(단순 필터링 vs 의미적 내재화)에 따라 트레이드오프가 존재함을 밝혀냈습니다.

Key Innovations

  • 언어, 시각-언어, 텍스트-투-이미지(T2I) 등 다양한 모달리티를 아우르는 통합 안전성 평가 프로토콜 구축
  • NIST AI RMF, EU AI Act, FEAT 등 실제 법적/윤리적 규제 프레임워크를 실행 가능한 평가 테스트로 변환하여 적용
  • 18개 언어를 포함하는 대규모 다국어 안전성 평가를 통해 언어적/문화적 배경에 따른 안전성 격차 분석
  • 30가지의 다양한 블랙박스 탈옥(Jailbreak) 공격 기법을 활용하여 최악의 시나리오(Worst-case)에 대한 방어력 측정
  • 모델의 안전성 특성을 '포괄적 일반화(Comprehensive Generalist)', '반응형 조정자(Reactive Aligner)', '양극화된 규칙 준수자(Polarized Rule-Follower)' 등의 유형(Archetype)으로 분류하여 구조적 분석 제공

Learning & Inference Impact

이 보고서는 단순히 정적인 안전성 데이터셋으로 모델을 미세 조정(Fine-tuning)하는 것만으로는 실제 배포 환경에서의 안전, 특히 적대적 공격에 대한 방어력을 보장할 수 없음을 시사합니다. Qwen3-VL이나 Seedream 4.5와 같이 명시적인 규칙이나 단순 필터링에 의존하는 모델은 문맥을 비트는 공격이나 모호한 프롬프트(Contextual Reframing)에 취약함을 보였습니다. 반면 GPT-5.2와 같이 안전 제약을 의미적 수준에서 내재화한 모델은 더 높은 견고성을 보였습니다. 이는 향후 모델 학습 시 단순한 패턴 매칭 위주의 정렬(Alignment)을 넘어, 다양한 언어와 모달리티가 혼합된 복잡한 상황에서의 추론 능력을 강화해야 함을 의미합니다. 또한 추론 단계에서 '도움이 되려는 성향(Helpfulness)'이 '무해성(Harmlessness)'을 압도하지 않도록 하는 동적 방어 메커니즘의 필요성을 강조합니다.

Technical Difficulty

중급

Estimated implementation complexity based on methodology.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!