2604.05711v1 Apr 07, 2026 cs.SE

SemLink: 시아모스 Sentence-BERT를 활용한 하이퍼링크 검증을 위한 의미 기반 자동 테스트 오라클

SemLink: A Semantic-Aware Automated Test Oracle for Hyperlink Verification using Siamese Sentence-BERT

Wei Wen
Wei Wen
Citations: 18
h-index: 3
Farn Wang
Farn Wang
Citations: 28
h-index: 4
Kuo-Hui Yeh
Kuo-Hui Yeh
Citations: 42
h-index: 4
Guanxiong Yang
Guanxiong Yang
Citations: 0
h-index: 0
Shuaichao Ku
Shuaichao Ku
Citations: 12
h-index: 3

웹 애플리케이션은 다양한 정보 자원을 연결하기 위해 하이퍼링크에 크게 의존합니다. 그러나 웹의 역동적인 특성으로 인해 링크가 작동하지 않거나, HTTP 200 상태 코드는 유지되지만 대상 콘텐츠가 원본 컨텍스트와 일치하지 않는 '의미적 변화' 문제가 발생합니다. 기존의 검증 도구는 주로 HTTP 상태 코드를 확인하여 오류 여부를 판단하지만, 이러한 도구는 의미적 불일치를 감지하지 못하여 웹의 무결성과 사용자 경험을 저해할 수 있습니다. 대규모 언어 모델(LLM)은 의미적 이해 능력을 제공하지만, 높은 지연 시간, 개인 정보 보호 문제, 그리고 대규모 회귀 테스트에 필요한 막대한 비용 때문에 제약이 있습니다. 본 논문에서는 의미적 하이퍼링크 검증을 위한 새로운 자동 테스트 오라클인 SemLink를 제안합니다. SemLink는 사전 훈련된 Sentence-BERT (SBERT) 기반의 시아모스 신경망 아키텍처를 활용하여 하이퍼링크의 원본 컨텍스트(앵커 텍스트, 주변 DOM 요소, 시각적 특징)와 대상 페이지 콘텐츠 간의 의미적 일관성을 계산합니다. 저희 모델을 훈련하고 평가하기 위해, 6만 개 이상의 의미적 쌍으로 구성된 체계적으로 구축된 데이터셋인 Hyperlink-Webpage Positive Pairs (HWPPs) 데이터셋을 소개합니다. 실험 결과, SemLink는 96.00%의 재현율을 달성하여 최첨단 LLM (GPT-5.2)과 유사한 성능을 보이면서도 약 47.5배 빠른 속도로 작동하고 훨씬 적은 컴퓨팅 자원을 필요로 합니다. 본 연구는 기존의 구문 분석 도구와 비용이 많이 드는 생성형 AI 사이의 간극을 메우며, 자동 웹 품질 보증을 위한 강력하고 효율적인 솔루션을 제공합니다.

Original Abstract

Web applications rely heavily on hyperlinks to connect disparate information resources. However, the dynamic nature of the web leads to link rot, where targets become unavailable, and more insidiously, semantic drift, where a valid HTTP 200 connection exists, but the target content no longer aligns with the source context. Traditional verification tools, which primarily function as crash oracles by checking HTTP status codes, often fail to detect semantic inconsistencies, thereby compromising web integrity and user experience. While Large Language Models (LLMs) offer semantic understanding, they suffer from high latency, privacy concerns, and prohibitive costs for large-scale regression testing. In this paper, we propose SemLink, a novel automated test oracle for semantic hyperlink verification. SemLink leverages a Siamese Neural Network architecture powered by a pre-trained Sentence-BERT (SBERT) backbone to compute the semantic coherence between a hyperlink's source context (anchor text, surrounding DOM elements, and visual features) and its target page content. To train and evaluate our model, we introduce the Hyperlink-Webpage Positive Pairs (HWPPs) dataset, a rigorously constructed corpus of over 60,000 semantic pairs. Our evaluation demonstrates that SemLink achieves a Recall of 96.00%, comparable to state-of-the-art LLMs (GPT-5.2), while operating approximately 47.5 times faster and requiring significantly fewer computational resources. This work bridges the gap between traditional syntactic checkers and expensive generative AI, offering a robust and efficient solution for automated web quality assurance.

0 Citations
0 Influential
2 Altmetric
10.0 Score
Original PDF

No Analysis Report Yet

This paper hasn't been analyzed by Gemini yet.

Log in to request an AI analysis.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!