2602.20918v1 Feb 24, 2026 cs.AI

다중 모드 환경에서의 문장 수용성 판단 예측

Predicting Sentence Acceptability Judgments in Multimodal Contexts

N. Ilinykh
N. Ilinykh
Citations: 291
h-index: 8
Sharid Lo'aiciga
Sharid Lo'aiciga
Citations: 24
h-index: 1
Jey Han Lau
Jey Han Lau
Citations: 6,407
h-index: 36
Shalom Lappin
Shalom Lappin
Citations: 34
h-index: 1
Hyewon Jang
Hyewon Jang
Citations: 0
h-index: 0

이전 연구에서는 딥 뉴럴 네트워크(DNN), 특히 트랜스포머 모델이 문장 수용성 판단을 예측하는 능력, 즉 맥락에 독립적으로 또는 문서 맥락에서 예측하는 능력을 살펴보았습니다. 본 연구에서는 인간과 대규모 언어 모델(LLM)의 문장 수용성 판단에 대한 시각 이미지(즉, 시각적 맥락)의 영향을 고려합니다. 연구 결과에 따르면, 텍스트 맥락과 달리 시각 이미지는 인간의 수용성 평가에 거의 또는 전혀 영향을 미치지 않는 것으로 보입니다. 그러나 LLM은 문서 맥락에서의 인간 판단에 대한 이전 연구에서 관찰된 압축 효과를 나타냅니다. 다양한 종류의 LLM은 인간의 수용성 판단을 높은 정확도로 예측할 수 있지만, 일반적으로 시각적 맥락이 제거될 때 성능이 약간 더 좋습니다. 또한, LLM의 판단 분포는 모델마다 다르며, Qwen 모델은 인간의 패턴과 유사한 반면, 다른 모델들은 그와 다른 경향을 보입니다. 일반적으로 LLM이 생성하는 문장 수용성 예측은 정규화된 로그 확률과 높은 상관관계를 보이지만, 시각적 맥락이 존재할 때는 이러한 상관관계가 감소합니다. 이는 LLM의 내부 표현과 생성된 예측 간의 간극이 시각적 맥락이 존재할 때 더 커짐을 시사합니다. 본 연구의 실험 결과는 다중 모드 환경에서 인간과 LLM이 문장을 처리하는 방식 간의 흥미로운 유사점과 차이점을 보여줍니다.

Original Abstract

Previous work has examined the capacity of deep neural networks (DNNs), particularly transformers, to predict human sentence acceptability judgments, both independently of context, and in document contexts. We consider the effect of prior exposure to visual images (i.e., visual context) on these judgments for humans and large language models (LLMs). Our results suggest that, in contrast to textual context, visual images appear to have little if any impact on human acceptability ratings. However, LLMs display the compression effect seen in previous work on human judgments in document contexts. Different sorts of LLMs are able to predict human acceptability judgments to a high degree of accuracy, but in general, their performance is slightly better when visual contexts are removed. Moreover, the distribution of LLM judgments varies among models, with Qwen resembling human patterns, and others diverging from them. LLM-generated predictions on sentence acceptability are highly correlated with their normalised log probabilities in general. However, the correlations decrease when visual contexts are present, suggesting that a higher gap exists between the internal representations of LLMs and their generated predictions in the presence of visual contexts. Our experimental work suggests interesting points of similarity and of difference between human and LLM processing of sentences in multimodal contexts.

0 Citations
0 Influential
18 Altmetric
90.0 Score

No Analysis Report Yet

This paper hasn't been analyzed by Gemini yet.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!