CoGR-MoE: 개념 기반 전문가 라우팅: 일관된 선택과 유연한 추론을 통한 시각 질의 응답
CoGR-MoE: Concept-Guided Expert Routing with Consistent Selection and Flexible Reasoning for Visual Question Answering
시각 질의 응답(VQA)은 모델이 시각적 증거와 텍스트 증거를 모두 기반으로 올바른 답변 후보를 식별하도록 요구합니다. 최근의 Mixture-of-Experts (MoE) 방법은 유사한 개념을 그룹화하거나 예제를 기반으로 라우팅하여 옵션 추론을 개선합니다. 그러나 불안정한 라우팅은 동일한 질문 유형에서 일관되지 않은 전문가 선택으로 이어질 수 있으며, 지나치게 안정적인 라우팅은 유연성을 저해할 수 있습니다. 이러한 문제를 해결하기 위해, 우리는 답변 후보의 의미를 활용하여 학습 단계에서 전문가 선택을 안내하는 개념 기반 라우팅 프레임워크(CoGR-MoE)를 제안합니다. 다음으로, 옵션 특징을 사용하여 선택된 전문가의 가중치를 재조정하여 각 후보 옵션에 대한 차별적인 표현을 생성합니다. 이러한 옵션 수준의 표현은 추가적으로 옵션 비교에 사용되며, 대조 학습을 통해 최적화됩니다. 실험 결과는 CoGR-MoE가 다양한 VQA 작업에서 뛰어난 성능을 달성하며, 우리의 접근 방식의 효과성을 입증한다는 것을 보여줍니다.
Visual Question Answering (VQA) requires models to identify the correct answer options based on both visual and textual evidence. Recent Mixture-of-Experts (MoE) methods improve option reasoning by grouping similar concepts or routing based on examples. However, unstable routing can lead to inconsistent expert selection in the same question type, while overly stable routing may reduce flexibility. To address this, we propose Concept-Guided Routing framework (CoGR-MoE), which incorporates semantics of the answer options to guide expert selection in the training phase. Next, option features are used to reweight the selected experts, producing discriminative representations for each candidate option. These option-level representations are further used for option comparison and optimized via contrastive learning. The experimental results indicate that CoGR-MoE delivers strong performance across multiple VQA tasks, demonstrating the effectiveness of our approach.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.
Log in to request an AI analysis.