2602.15862v1 Jan 26, 2026 cs.CL

의미론적으로 정확한 레시피 생성을 위한 동작 및 재료 모델 개선

Enhancing Action and Ingredient Modeling for Semantically Grounded Recipe Generation

Guoshan Liu
Guoshan Liu
Citations: 21
h-index: 2
Bin Zhu
Bin Zhu
Citations: 69
h-index: 5
Yian Li
Yian Li
Citations: 24
h-index: 2
Jingjing Chen
Jingjing Chen
Citations: 48
h-index: 4
Chong-Wah Ngo
Chong-Wah Ngo
Citations: 108
h-index: 5
Yu-Gang Jiang
Yu-Gang Jiang
Citations: 3,209
h-index: 22

최근 다중 모드 대규모 언어 모델(MLMM)의 발전으로 음식 이미지를 기반으로 레시피를 생성하는 것이 가능해졌지만, 생성된 결과물은 높은 어휘 점수(예: BLEU, ROUGE)에도 불구하고 종종 의미적으로 부정확한 동작이나 재료를 포함하는 경우가 있습니다. 이러한 문제를 해결하기 위해, 우리는 동작과 재료를 예측하고 검증하여 명령어 생성을 위한 내부 컨텍스트로 활용하는 의미론적으로 정확한 프레임워크를 제안합니다. 우리의 두 단계 파이프라인은 지도 학습(SFT)과 강화 학습(RFT)을 결합합니다. SFT는 동작-추론 데이터셋과 재료 코퍼스를 사용하여 기본적인 정확도를 구축하며, RFT는 빈도에 민감한 보상을 활용하여 희귀한 동작 예측과 재료 일반화 성능을 향상시킵니다. 또한, 의미론적 신뢰도 점수 부여 및 수정(SCSR) 모듈을 통해 예측 결과를 필터링하고 수정합니다. Recipe1M 데이터셋에 대한 실험 결과, 최고 수준의 성능과 현저하게 향상된 의미론적 정확도를 보여주었습니다.

Original Abstract

Recent advances in Multimodal Large Language Models (MLMMs) have enabled recipe generation from food images, yet outputs often contain semantically incorrect actions or ingredients despite high lexical scores (e.g., BLEU, ROUGE). To address this gap, we propose a semantically grounded framework that predicts and validates actions and ingredients as internal context for instruction generation. Our two-stage pipeline combines supervised fine-tuning (SFT) with reinforcement fine-tuning (RFT): SFT builds foundational accuracy using an Action-Reasoning dataset and ingredient corpus, while RFT employs frequency-aware rewards to improve long-tail action prediction and ingredient generalization. A Semantic Confidence Scoring and Rectification (SCSR) module further filters and corrects predictions. Experiments on Recipe1M show state-of-the-art performance and markedly improved semantic fidelity.

0 Citations
0 Influential
11 Altmetric
55.0 Score

No Analysis Report Yet

This paper hasn't been analyzed by Gemini yet.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!