2603.23860v1 Mar 25, 2026 cs.LG

활성화 함수의 최대 이차 도함수가 적대적 강건성(Adversarial Robustness)에 미치는 영향

Why the Maximum Second Derivative of Activations Matters for Adversarial Robustness

Hang Su
Hang Su
Citations: 551
h-index: 8
Jun Zhu
Jun Zhu
Citations: 182
h-index: 5
yunrui yu
yunrui yu
Trustworthy AI
Citations: 85
h-index: 4

본 연구는 활성화 함수 곡률, 특히 최대 이차 도함수 $\max|σ''|$가 적대적 강건성에 미치는 중요한 역할을 조사합니다. Recursive Curvature-Tunable Activation Family (RCT-AF)를 사용하여, 파라미터 $α$와 $β$를 통해 곡률을 정밀하게 제어하면서 이러한 관계를 체계적으로 분석했습니다. 우리의 연구 결과는 근본적인 상충 관계를 보여줍니다. 충분하지 않은 곡률은 모델의 표현력을 제한하는 반면, 과도한 곡률은 손실 함수의 정규화된 헤세 행렬 대각선 노름을 증가시켜, 강건한 일반화(robust generalization)을 방해하는 더 뾰족한 최소값을 초래합니다. 이는 최적의 적대적 강건성이 $\max|σ''|$가 4에서 10 사이의 값일 때 지속적으로 나타나는 비단조적인 관계를 보여주며, 이러한 경향은 다양한 네트워크 구조, 데이터 세트 및 적대적 학습 방법에 걸쳐 일관되게 나타납니다. 우리는 활성화 함수 곡률이 손실 함수의 헤세 행렬 대각선 요소에 미치는 영향에 대한 이론적 통찰력을 제공하고, 실험적으로 정규화된 헤세 행렬 대각선 노름이 $\max|σ''|$에 대해 U자형 의존성을 보이며, 최적의 강건성 범위 내에서 최소값을 갖는다는 것을 입증하여 제안된 메커니즘을 검증했습니다.

Original Abstract

This work investigates the critical role of activation function curvature -- quantified by the maximum second derivative $\max|σ''|$ -- in adversarial robustness. Using the Recursive Curvature-Tunable Activation Family (RCT-AF), which enables precise control over curvature through parameters $α$ and $β$, we systematically analyze this relationship. Our study reveals a fundamental trade-off: insufficient curvature limits model expressivity, while excessive curvature amplifies the normalized Hessian diagonal norm of the loss, leading to sharper minima that hinder robust generalization. This results in a non-monotonic relationship where optimal adversarial robustness consistently occurs when $\max|σ''|$ falls within 4 to 10, a finding that holds across diverse network architectures, datasets, and adversarial training methods. We provide theoretical insights into how activation curvature affects the diagonal elements of the hessian matrix of the loss, and experimentally demonstrate that the normalized Hessian diagonal norm exhibits a U-shaped dependence on $\max|σ''|$, with its minimum within the optimal robustness range, thereby validating the proposed mechanism.

0 Citations
0 Influential
4 Altmetric
20.0 Score
Original PDF

No Analysis Report Yet

This paper hasn't been analyzed by Gemini yet.

Log in to request an AI analysis.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!