2602.02063v1 Feb 02, 2026 cs.HC

See2Refine: 시각-언어 피드백을 통한 LLM 기반 eHMI 액션 설계 성능 향상

See2Refine: Vision-Language Feedback Improves LLM-Based eHMI Action Designers

Ding Xia
Ding Xia
Citations: 8
h-index: 2
Xinyue Gui
Xinyue Gui
Citations: 92
h-index: 4
Mark Colley
Mark Colley
Citations: 8
h-index: 2
Fan Gao
Fan Gao
Citations: 4
h-index: 2
Zhongyi Zhou
Zhongyi Zhou
Citations: 7
h-index: 2
Dongyuan Li
Dongyuan Li
Citations: 4
h-index: 2
Renhe Jiang
Renhe Jiang
Citations: 273
h-index: 9
Takeo Igarashi
Takeo Igarashi
Citations: 14
h-index: 3

자율 주행 차량은 다른 도로 이용자와의 자연스러운 소통 채널이 부족하기 때문에, 공유 환경에서 의도를 전달하고 신뢰를 유지하기 위해 외부 휴먼-머신 인터페이스(eHMI)가 필수적입니다. 그러나 대부분의 eHMI 연구는 개발자가 직접 제작한 메시지-액션 쌍에 의존하는데, 이는 다양하고 역동적인 교통 상황에 맞게 적용하기 어렵습니다. 유망한 대안으로, 대규모 언어 모델(LLM)을 사용하여 문맥에 따른 eHMI 액션을 생성하는 액션 설계기를 사용할 수 있지만, 이러한 설계기는 시각적 검증이 부족하며, 일반적으로 개선을 위해 고정된 프롬프트나 비용이 많이 드는 인간 주석 피드백에 의존합니다. 본 논문에서는 시각-언어 모델(VLM)의 시각적 평가를 자동화된 시각 피드백으로 활용하여 LLM 기반 eHMI 액션 설계기를 개선하는 인간 개입이 없는 폐쇄 루프 프레임워크인 See2Refine을 제안합니다. See2Refine은 주어진 주행 상황과 후보 eHMI 액션에 대해 VLM이 액션의 적절성을 평가하고, 이 피드백을 사용하여 설계기의 출력을 반복적으로 수정함으로써, 인간의 감독 없이 체계적인 개선을 가능하게 합니다. 저희는 세 가지 eHMI 모드(라이트바, 눈, 팔)와 다양한 크기의 LLM 모델을 사용하여 See2Refine을 평가했습니다. 다양한 설정에서, 저희 프레임워크는 VLM 기반 지표 및 인간 평가 모두에서 프롬프트만 사용하는 LLM 설계기와 수동으로 지정된 기준보다 일관되게 우수한 성능을 보였습니다. 결과는 개선 사항이 모드에 관계없이 일반화되며, VLM 평가가 인간의 선호도와 잘 일치한다는 것을 보여주며, See2Refine이 확장 가능한 액션 설계를 위한 견고하고 효과적인 방법임을 뒷받침합니다.

Original Abstract

Automated vehicles lack natural communication channels with other road users, making external Human-Machine Interfaces (eHMIs) essential for conveying intent and maintaining trust in shared environments. However, most eHMI studies rely on developer-crafted message-action pairs, which are difficult to adapt to diverse and dynamic traffic contexts. A promising alternative is to use Large Language Models (LLMs) as action designers that generate context-conditioned eHMI actions, yet such designers lack perceptual verification and typically depend on fixed prompts or costly human-annotated feedback for improvement. We present See2Refine, a human-free, closed-loop framework that uses vision-language model (VLM) perceptual evaluation as automated visual feedback to improve an LLM-based eHMI action designer. Given a driving context and a candidate eHMI action, the VLM evaluates the perceived appropriateness of the action, and this feedback is used to iteratively revise the designer's outputs, enabling systematic refinement without human supervision. We evaluate our framework across three eHMI modalities (lightbar, eyes, and arm) and multiple LLM model sizes. Across settings, our framework consistently outperforms prompt-only LLM designers and manually specified baselines in both VLM-based metrics and human-subject evaluations. Results further indicate that the improvements generalize across modalities and that VLM evaluations are well aligned with human preferences, supporting the robustness and effectiveness of See2Refine for scalable action design.

0 Citations
0 Influential
4.5 Altmetric
22.5 Score

No Analysis Report Yet

This paper hasn't been analyzed by Gemini yet.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!