FAMOSE: 자동화된 특성 발견을 위한 ReAct 접근법
FAMOSE: A ReAct Approach to Automated Feature Discovery
특성 공학은 기계 학습, 특히 표형 데이터에서 여전히 중요하면서도 까다로운 병목 현상으로 남아 있다. 이는 기하급수적으로 큰 특성 공간에서 최적의 특성을 식별하는 데 전통적으로 상당한 도메인 전문 지식이 필요하기 때문이다. 이러한 과제를 해결하기 위해, 우리는 에이전트 아키텍처 내에 특성 선택 및 평가 도구를 통합하는 동시에 ReAct 패러다임을 활용하여 자율적으로 특성을 탐색, 생성 및 개선하는 새로운 프레임워크인 FAMOSE(Feature AugMentation and Optimal Selection agEnt)를 소개한다. 우리가 아는 한, FAMOSE는 회귀 및 분류 작업 모두에 대해 자동화된 특성 공학에 에이전트 기반 ReAct 프레임워크를 적용한 최초의 사례이다. 광범위한 실험에 따르면, FAMOSE는 분류 작업(특히 1만 개 이상의 인스턴스가 있는 작업에서 평균 ROC-AUC가 0.23% 증가)에서 최고 수준(state-of-the-art)이거나 그에 근접하며, 회귀 작업에서는 평균적으로 RMSE를 2.0% 감소시켜 최고 성능을 달성하는 동시에 다른 알고리즘보다 오류에 대해 더 뛰어난 견고성을 유지하는 것으로 나타났다. 우리는 FAMOSE의 우수한 성능이 ReAct를 통해 LLM의 컨텍스트 윈도우가 (반복적인 특성 발견 및 평가 단계를 거치며) 어떤 특성이 효과가 있었고 없었는지를 기록할 수 있기 때문이라고 가설을 세운다. 이는 퓨샷(few-shot) 프롬프트와 유사하며, LLM이 더 우수하고 혁신적인 특성을 고안해 내도록 유도한다. 우리의 연구는 AI 에이전트가 특성 공학과 같이 고도로 창의적인 해결책을 요구하는 문제를 해결하는 데 매우 효과적이라는 증거를 제공한다.
Feature engineering remains a critical yet challenging bottleneck in machine learning, particularly for tabular data, as identifying optimal features from an exponentially large feature space traditionally demands substantial domain expertise. To address this challenge, we introduce FAMOSE (Feature AugMentation and Optimal Selection agEnt), a novel framework that leverages the ReAct paradigm to autonomously explore, generate, and refine features while integrating feature selection and evaluation tools within an agent architecture. To our knowledge, FAMOSE represents the first application of an agentic ReAct framework to automated feature engineering, especially for both regression and classification tasks. Extensive experiments demonstrate that FAMOSE is at or near the state-of-the-art on classification tasks (especially tasks with more than 10K instances, where ROC-AUC increases 0.23% on average), and achieves the state-of-the-art for regression tasks by reducing RMSE by 2.0% on average, while remaining more robust to errors than other algorithms. We hypothesize that FAMOSE's strong performance is because ReAct allows the LLM context window to record (via iterative feature discovery and evaluation steps) what features did or did not work. This is similar to a few-shot prompt and guides the LLM to invent better, more innovative features. Our work offers evidence that AI agents are remarkably effective in solving problems that require highly inventive solutions, such as feature engineering.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.