임베디드 및 IoT 시스템 개발을 위한 숙련된 AI 에이전트
Skilled AI Agents for Embedded and IoT Systems Development
대규모 언어 모델(LLM)과 에이전트 시스템은 자동화된 소프트웨어 개발에 유망한 가능성을 보여주었지만, 소프트웨어 로직과 물리적 하드웨어 동작 간의 긴밀한 연관성 때문에 하드웨어-인-더-루프(HIL) 임베디드 및 사물 인터넷(IoT) 시스템에 적용하는 것은 여전히 어려운 과제입니다. 코드가 성공적으로 컴파일되더라도 타이밍 제약, 주변 장치 초기화 요구 사항 또는 하드웨어 특정 동작으로 인해 실제 장치에 배포될 때 실패할 수 있습니다. 이러한 과제를 해결하기 위해, 우리는 HIL 임베디드 개발을 위한 기술 기반 에이전트 프레임워크와 함께, AI 에이전트를 실제 임베디드 프로그래밍 환경에서 체계적으로 평가하기 위한 벤치마크인 IoT-SkillsBench를 소개합니다. IoT-SkillsBench는 세 가지 대표적인 임베디드 플랫폼, 23개의 주변 장치 및 세 가지 난이도 레벨에 걸쳐 42개의 작업을 포함하며, 각 작업은 세 가지 에이전트 구성(기술 없음, LLM 생성 기술, 인간 전문가 기술) 하에서 평가되고 실제 하드웨어 실행을 통해 검증됩니다. 378개의 하드웨어 검증 실험에서, 구조화된 전문 지식을 갖춘 간결한 인간 전문가 기술이 플랫폼 전반에 걸쳐 거의 완벽한 성공률을 가능하게 한다는 것을 보여줍니다.
Large language models (LLMs) and agentic systems have shown promise for automated software development, but applying them to hardware-in-the-loop (HIL) embedded and Internet-of-Things (IoT) systems remains challenging due to the tight coupling between software logic and physical hardware behavior. Code that compiles successfully may still fail when deployed on real devices because of timing constraints, peripheral initialization requirements, or hardware-specific behaviors. To address this challenge, we introduce a skills-based agentic framework for HIL embedded development together with IoT-SkillsBench, a benchmark designed to systematically evaluate AI agents in real embedded programming environments. IoT-SkillsBench spans three representative embedded platforms, 23 peripherals, and 42 tasks across three difficulty levels, where each task is evaluated under three agent configurations (no-skills, LLM-generated skills, and human-expert skills) and validated through real hardware execution. Across 378 hardware validated experiments, we show that concise human-expert skills with structured expert knowledge enable near-perfect success rates across platforms.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.
Log in to request an AI analysis.