LLM 기반 이진 분석에서의 암묵적 패턴
Implicit Patterns in LLM-Based Binary Analysis
이진 취약점 분석은 점점 더 LLM 기반 에이전트가 반복적이고 다단계 방식으로 수행하며, 모델이 핵심 의사 결정 역할을 합니다. 그러나 제한된 컨텍스트 윈도우와 암묵적인 토큰 수준 동작으로 인해, 이러한 시스템이 수백 단계의 추론 과정을 어떻게 구성하는지에 대한 이해는 여전히 부족합니다. 본 연구에서는 대규모, 추적 수준의 분석을 통해 다단계 LLM 추론이 구조화된 토큰 수준의 암묵적 패턴을 생성한다는 것을 최초로 보여줍니다. 521개의 이진 파일에 대해 총 99,563단계의 추론 과정을 분석한 결과, '초기 가지치기', '경로 의존적 고착', '타겟 기반 되돌아감', 그리고 '지식 기반 우선순위'라는 네 가지 주요 패턴이 추론 과정에서 암묵적으로 나타나는 것을 확인했습니다. 이러한 토큰 수준의 암묵적 패턴은 LLM 추론의 추상화 역할을 하며, 명시적인 제어 흐름이나 사전 정의된 휴리스틱 대신, 경로 선택, 확정, 그리고 수정에 대한 암묵적인 의사 결정을 통해 탐색이 구성됩니다. 분석 결과, 이러한 패턴들은 뚜렷한 시간적 역할과 측정 가능한 특징을 가진 안정적이고 구조화된 시스템을 형성합니다. 본 연구 결과는 LLM 기반 이진 분석에 대한 최초의 체계적인 분석을 제공하며, 더욱 신뢰할 수 있는 분석 시스템 개발의 기초를 제공합니다.
Binary vulnerability analysis is increasingly performed by LLM-based agents in an iterative, multi-pass manner, with the model as the core decision-maker. However, how such systems organize exploration over hundreds of reasoning steps remains poorly understood, due to limited context windows and implicit token-level behaviors. We present the first large-scale, trace-level study showing that multi-pass LLM reasoning gives rise to structured, token-level implicit patterns. Analyzing 521 binaries with 99,563 reasoning steps, we identify four dominant patterns: early pruning, path-dependent lock-in, targeted backtracking, and knowledge-guided prioritization that emerge implicitly from reasoning traces. These token-level implicit patterns serve as an abstraction of LLM reasoning: instead of explicit control-flow or predefined heuristics, exploration is organized through implicit decisions regulating path selection, commitment, and revision. Our analysis shows these patterns form a stable, structured system with distinct temporal roles and measurable characteristics. Our results provide the first systematic characterization of LLM-driven binary analysis and a foundation for more reliable analysis systems.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.
Log in to request an AI analysis.