CSPO: 구조화된 표에서 LaTeX 코드로 변환 시 보상 모호성 완화
CSPO: Alleviating Reward Ambiguity for Structured Table-to-LaTeX Generation
표는 풍부한 구조화된 정보를 포함하지만, 이미지로 저장될 경우 그 내용은 픽셀 내에 '갇혀' 있습니다. 표 이미지를 LaTeX 코드로 변환하면 정확한 디지털화 및 재사용이 가능하지만, 현재의 멀티모달 대규모 언어 모델(MLLM)은 종종 구조, 스타일 또는 내용의 충실도를 유지하지 못합니다. 기존의 강화 학습(RL)을 통한 추가 훈련은 일반적으로 단일의 집계된 보상에 의존하는데, 이는 여러 행동 측면을 혼동시켜 보상 모호성을 야기하고 효과적인 최적화를 방해합니다. 우리는 LaTeX 표의 구성 요소(구조, 스타일, 내용)에 따른 최적화를 분리하는 RL 프레임워크인 Component-Specific Policy Optimization (CSPO)을 제안합니다. 특히, CSPO는 구성 요소별 보상을 할당하고 각 신호를 해당 구성 요소와 관련된 토큰을 통해서만 역전파하여 보상 모호성을 완화하고, 대상 구성 요소별 최적화를 가능하게 합니다. 성능을 종합적으로 평가하기 위해, 계층적 평가 지표 세트를 도입했습니다. 광범위한 실험 결과는 CSPO의 효과성을 입증하며, 신뢰할 수 있는 구조화된 생성에 있어서 구성 요소별 최적화의 중요성을 강조합니다.
Tables contain rich structured information, yet when stored as images their contents remain "locked" within pixels. Converting table images into LaTeX code enables faithful digitization and reuse, but current multimodal large language models (MLLMs) often fail to preserve structural, style, or content fidelity. Conventional post-training with reinforcement learning (RL) typically relies on a single aggregated reward, leading to reward ambiguity that conflates multiple behavioral aspects and hinders effective optimization. We propose Component-Specific Policy Optimization (CSPO), an RL framework that disentangles optimization across LaTeX tables components-structure, style, and content. In particular, CSPO assigns component-specific rewards and backpropagates each signal only through the tokens relevant to its component, alleviating reward ambiguity and enabling targeted component-wise optimization. To comprehensively assess performance, we introduce a set of hierarchical evaluation metrics. Extensive experiments demonstrate the effectiveness of CSPO, underscoring the importance of component-specific optimization for reliable structured generation.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.
Log in to request an AI analysis.