2603.27338v1 Mar 28, 2026 cs.AI

CounterMoral: 언어 모델에서의 도덕 수정

CounterMoral: Editing Morals in Language Models

M. Ripa
M. Ripa
Citations: 71
h-index: 3
Jim Davies
Jim Davies
Citations: 0
h-index: 0

최근 언어 모델 기술의 발전은 사실 정보를 수정하는 능력을 크게 향상시켰습니다. 그러나 모델을 인간의 가치에 맞추는 데 중요한 역할을 하는 도덕적 판단의 수정은 상대적으로 덜 주목받아 왔습니다. 본 연구에서는 다양한 윤리적 관점에서 모델 수정 기술이 도덕적 판단을 얼마나 잘 수정하는지 평가하기 위해 설계된 벤치마크 데이터셋인 CounterMoral을 소개합니다. 우리는 다양한 수정 기법을 여러 언어 모델에 적용하고, 그 성능을 평가했습니다. 우리의 연구 결과는 윤리적으로 설계된 언어 모델의 평가에 기여합니다.

Original Abstract

Recent advancements in language model technology have significantly enhanced the ability to edit factual information. Yet, the modification of moral judgments, a crucial aspect of aligning models with human values, has garnered less attention. In this work, we introduce CounterMoral, a benchmark dataset crafted to assess how well current model editing techniques modify moral judgments across diverse ethical frameworks. We apply various editing techniques to multiple language models and evaluate their performance. Our findings contribute to the evaluation of language models designed to be ethical.

0 Citations
0 Influential
1.5 Altmetric
7.5 Score
Original PDF

No Analysis Report Yet

This paper hasn't been analyzed by Gemini yet.

Log in to request an AI analysis.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!