CSSG: 의미 그래프를 이용한 코드 유사성 측정
CSSG: Measuring Code Similarity with Semantic Graphs
기존의 코드 유사성 측정 지표인 BLEU, CodeBLEU 및 TSED는 주로 표면적인 문자열 중복 또는 추상 구문 트리 구조에 의존하며, 프로그램 간의 심층적인 의미 관계를 제대로 파악하지 못하는 경우가 많습니다. 본 연구에서는 CSSG(Code Similarity using Semantic Graphs)라는 새로운 지표를 제안합니다. CSSG는 프로그램 의존성 그래프를 활용하여 제어 의존성과 변수 상호 작용을 명시적으로 모델링하고, 코드의 의미를 고려한 표현을 제공합니다. CodeContests+ 데이터셋에 대한 실험 결과, CSSG는 단일 언어 및 다국어 환경 모두에서 기존 지표보다 일관되게 우수한 성능을 보이며, 유사한 코드를 덜 유사한 코드와 더 잘 구별하는 것을 확인했습니다. 이는 의존성을 고려한 그래프 표현이 표면적이거나 구문 기반의 유사성 측정 방법보다 효과적인 대안임을 보여줍니다.
Existing code similarity metrics, such as BLEU, CodeBLEU, and TSED, largely rely on surface-level string overlap or abstract syntax tree structures, and often fail to capture deeper semantic relationships between programs.We propose CSSG (Code Similarity using Semantic Graphs), a novel metric that leverages program dependence graphs to explicitly model control dependencies and variable interactions, providing a semantics-aware representation of code.Experiments on the CodeContests+ dataset show that CSSG consistently outperforms existing metrics in distinguishing more similar code from less similar code under both monolingual and cross-lingual settings, demonstrating that dependency-aware graph representations offer a more effective alternative to surface-level or syntax-based similarity measures.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.