글로벌 AI 안전 이니셔티브의 자동 분석: 분류 체계를 활용한 LLM 접근 방식
Automated Analysis of Global AI Safety Initiatives: A Taxonomy-Driven LLM Approach
본 논문에서는 활동 분류 체계를 기반으로 AI 안전 정책 문서 쌍을 비교하는 자동화된 프레임워크를 제시합니다. 'AI 안전 활동 지도'에 정의된 활동 범주를 고정된 측면으로 사용하여, 시스템은 관련 활동을 추출하고 매핑한 다음, 각 측면에 대해 문서별 요약, 간략한 비교, 그리고 유사도 점수를 생성합니다. 본 연구에서는 공개 정책 문서에 대한 LLM 기반 교차 분석의 안정성과 유효성을 평가합니다. 다섯 개의 대규모 언어 모델을 사용하여 열 개의 공개 문서에 대한 교차 분석을 수행하고, 평균 유사도 점수를 히트맵으로 시각화합니다. 결과는 모델 선택이 교차 분석 결과에 상당한 영향을 미치며, 일부 문서 쌍은 모델 간에 높은 불일치를 보인다는 것을 보여줍니다. 세 명의 전문가가 두 문서 쌍에 대해 수행한 인간 평가에서는 높은 합의도를 보였지만, 모델 점수는 여전히 인간의 판단과 차이를 나타냈습니다. 이러한 결과는 정책 문서의 비교 검토를 뒷받침합니다.
We present an automated crosswalk framework that compares an AI safety policy document pair under a shared taxonomy of activities. Using the activity categories defined in Activity Map on AI Safety as fixed aspects, the system extracts and maps relevant activities, then produces for each aspect a short summary for each document, a brief comparison, and a similarity score. We assess the stability and validity of LLM-based crosswalk analysis across public policy documents. Using five large language models, we perform crosswalks on ten publicly available documents and visualize mean similarity scores with a heatmap. The results show that model choice substantially affects the crosswalk outcomes, and that some document pairs yield high disagreements across models. A human evaluation by three experts on two document pairs shows high inter-annotator agreement, while model scores still differ from human judgments. These findings support comparative inspection of policy documents.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.
Log in to request an AI analysis.