반례 게임: 언어 모델에서의 반복적 개념 분석 및 수정
The Counterexample Game: Iterated Conceptual Analysis and Repair in Language Models
개념 분석은 철학적 방법론의 핵심으로, 정의를 제안하고 반례를 통해 이를 개선하는 과정을 포함합니다. 본 연구에서는 언어 모델이 반복적인 분석 및 수정 과정을 통해 이러한 작업을 수행할 수 있는지 조사합니다. 하나의 모델 인스턴스가 제안된 정의에 대한 반례를 생성하고, 다른 인스턴스가 해당 정의를 수정하며, 이 과정이 반복됩니다. 20개의 개념과 수천 번의 반례-수정 주기를 통해 분석한 결과, 많은 언어 모델이 생성한 반례가 전문가 인간 평가자와 또 다른 언어 모델 평가자에 의해 유효하지 않은 것으로 판단되었지만, 언어 모델 평가자는 인간 평가자에 비해 약 두 배 더 많은 반례를 유효하다고 판단했습니다. 그럼에도 불구하고, 개별 항목에 대한 유효성 판단은 인간 평가자와 인간 평가자 및 언어 모델 간에 어느 정도 일관성을 보였습니다. 또한, 반복 횟수가 늘어날수록 정의가 점점 더 장황해지지만 정확도는 향상되지 않는다는 사실을 확인했습니다. 또한, 일부 개념은 본질적으로 안정적인 정의를 내리기 어렵다는 것을 관찰했습니다. 이러한 결과는 언어 모델이 철학적 추론에 참여할 수 있지만, 반례-수정 루프는 빠르게 효용성이 감소하며, 언어 모델이 고차원적인 반복적 철학적 추론을 유지할 수 있는지 평가하기 위한 유용한 실험이 될 수 있음을 시사합니다.
Conceptual analysis -- proposing definitions and refining them through counterexamples -- is central to philosophical methodology. We study whether language models can perform this task through iterated analysis and repair chains: one model instance generates counterexamples to a proposed definition, another repairs the definition, and the process repeats. Across 20 concepts and thousands of counterexample-repair cycles, we find that, although many LM-generated counterexamples are judged invalid by both expert humans and an LM judge, the LM judge accepts roughly twice as many as humans do. Nonetheless, per-item validity judgments are moderately consistent across humans and between humans and the LM. We further find that extended iteration produces increasingly verbose definitions without improving accuracy. We also see that some concepts resist stable definitions in general. These findings suggest that while LMs can engage in philosophical reasoning, the counterexample-repair loop hits diminishing returns quickly and could be a fruitful test case for evaluating whether LMs can sustain high-level iterated philosophical reasoning.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.
Log in to request an AI analysis.