평행사변형이 다시 돌아왔다: LLM은 인간보다 더 나은 유추를 생성한다
Parallelograms Strike Back: LLMs Generate Better Analogies than People
사단어 유추(A:B::C:D)는 전통적으로 '평행사변형'이라는 기하학적 모델로 설명되지만, 최근 연구에서는 이 모델이 인간이 유추를 생성하는 방식을 제대로 반영하지 못하며, 간단한 지역 유사성 규칙이 더 나은 설명을 제공한다는 주장이 제기되었다(Peterson et al., 2020). 하지만 평행사변형 모델이 유추 관계를 잘못 모델링하기 때문에 실패하는 것인지, 아니면 인간이 관계를 보존하는 유추를 생성하는 데 능숙하지 않기 때문에 실패하는 것인지에 대한 질문이 남아 있다. 본 연구에서는 인간과 대규모 언어 모델(LLM)이 (Peterson et al., 2020)에서 제시된 동일한 유추 문제에 대해 생성한 결과물을 비교했다. 분석 결과, LLM이 생성한 유추는 인간이 생성한 유추보다 더 좋다는 평가를 꾸준히 받았으며, 분포 임베딩 공간(GloVe)에서 평행사변형 구조와 더욱 밀접하게 일치하는 경향을 보였다. 중요한 점은 LLM이 인간 유추보다 우수한 성능을 보인 이유가 지역 유사성에 대한 민감도가 향상된 것이 아니라, 평행사변형 구조와의 일치도가 높고 흔하게 사용되는 단어에 대한 의존도가 낮기 때문이라는 것이다. 또한, LLM의 우수성은 LLM이 전반적으로 우수한 답변을 제공하기 때문이 아니라, 인간이 생성하는 유추 결과의 품질 편차가 크기 때문이며, 양 시스템 모두에서 가장 빈번하게 나타나는 답변만을 비교할 경우, LLM의 우위는 사라진다. 그러나 평행사변형 구조와의 일치도가 높고 단어 빈도가 낮다는 특징은 여전히 LLM이 생성한 유추가 인간이 생성한 유추보다 더 높은 평가를 받는 것을 예측하는 데 유효하다. 전반적으로 이러한 결과는 평행사변형 모델이 단어 유추를 설명하는 데 부적절하지 않음을 시사한다. 오히려 인간은 종종 이 관계 제약을 만족시키는 유추를 생성하지 못하는 반면, LLM은 이를 더욱 일관되게 수행하는 경향이 있다.
Four-term word analogies (A:B::C:D) are classically modeled geometrically as ''parallelograms,'' yet recent work suggests this model poorly captures how humans produce analogies, with simple local-similarity heuristics often providing a better account (Peterson et al., 2020). But does the parallelogram model fail because it is a bad model of analogical relations, or because people are not very good at generating relation-preserving analogies? We compared human and large language model (LLM) analogy completions on the same set of analogy problems from (Peterson et al., 2020). We find that LLM-generated analogies are reliably judged as better than human-generated ones, and are also more closely aligned with the parallelogram structure in a distributional embedding space (GloVe). Crucially, we show that the improvement over human analogies was driven by greater parallelogram alignment and reduced reliance on accessible words rather than enhanced sensitivity to local similarity. Moreover, the LLM advantage is driven not by uniformly superior responses by LLMs, but by humans producing a long tail of weak completions: when only modal (most frequent) responses by both systems are compared, the LLM advantage disappears. However, greater parallelogram alignment and lower word frequency continue to predict which LLM completions are rated higher than those of humans. Overall, these results suggest that the parallelogram model is not a poor account of word analogy. Rather, humans may often fail to produce completions that satisfy this relational constraint, whereas LLMs do so more consistently.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.
Log in to request an AI analysis.