앵커링을 통한 모델 일치성 확보
Model Agreement via Anchoring
본 연구는 모델 불일치성, 즉 두 개의 머신러닝 모델이 예측에서 얼마나 동의하지 않는지를 제어하는 다양한 방법을 다룹니다. 우리는 독립적인 데이터 샘플로 훈련된 두 모델 간의 예측 차이의 제곱 값의 기댓값을 모델 불일치성의 간단하고 표준적인 정의로 채택하며, 훈련 과정 간의 어떠한 조정도 포함하지 않습니다. 우리는 기존의 훈련 방법론에 적용할 수 있는 분석을 통해 특정 자연스러운 훈련 파라미터를 사용하여 불일치성을 0으로 만들 수 있기를 바랍니다. 본 연구에서는 분석 과정에서 두 모델의 평균에 '앵커링'하는 방식으로 독립적인 모델 불일치성에 대한 경계를 증명하는 간단하고 일반적인 기술을 개발합니다. 그런 다음, 이 기술을 사용하여 널리 사용되는 네 가지 머신러닝 알고리즘에 대한 불일치성 경계를 증명합니다. (1) 임의의 모델 클래스에 대한 스태킹 집계 (여기서 불일치성은 스태킹되는 모델의 개수 k에 따라 0으로 감소), (2) 그래디언트 부스팅 (여기서 불일치성은 반복 횟수 k에 따라 0으로 감소), (3) 아키텍처 검색을 통한 신경망 훈련 (여기서 불일치성은 최적화되는 아키텍처 크기 n에 따라 0으로 감소), (4) 고정 깊이의 모든 회귀 트리에 대한 회귀 트리 훈련 (여기서 불일치성은 트리 아키텍처의 깊이 d에 따라 0으로 감소)입니다. 명확성을 위해, 우리는 먼저 제곱 오차 손실을 사용하는 일차원 회귀 설정에서 초기 경계를 도출합니다. 하지만, 모든 결과가 임의의 강하게 볼록 손실을 사용하는 다차원 회귀에도 일반화됨을 보여줍니다.
Numerous lines of aim to control $\textit{model disagreement}$ -- the extent to which two machine learning models disagree in their predictions. We adopt a simple and standard notion of model disagreement in real-valued prediction problems, namely the expected squared difference in predictions between two models trained on independent samples, without any coordination of the training processes. We would like to be able to drive disagreement to zero with some natural parameter(s) of the training procedure using analyses that can be applied to existing training methodologies. We develop a simple general technique for proving bounds on independent model disagreement based on $\textit{anchoring}$ to the average of two models within the analysis. We then apply this technique to prove disagreement bounds for four commonly used machine learning algorithms: (1) stacked aggregation over an arbitrary model class (where disagreement is driven to 0 with the number of models $k$ being stacked) (2) gradient boosting (where disagreement is driven to 0 with the number of iterations $k$) (3) neural network training with architecture search (where disagreement is driven to 0 with the size $n$ of the architecture being optimized over) and (4) regression tree training over all regression trees of fixed depth (where disagreement is driven to 0 with the depth $d$ of the tree architecture). For clarity, we work out our initial bounds in the setting of one-dimensional regression with squared error loss -- but then show that all of our results generalize to multi-dimensional regression with any strongly convex loss.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.
Log in to request an AI analysis.