2605.14790v1 May 14, 2026 cs.CL

연구 그래프: 인용 진화 그래프를 활용한 연구 아이디어 생성 가이드

Graphs of Research: Citation Evolution Graphs as Supervision for Research Idea Generation

Yinghui Xia
Yinghui Xia
Citations: 137
h-index: 5
Songyang Gao
Songyang Gao
Citations: 265
h-index: 6
Siyi Liu
Siyi Liu
Citations: 75
h-index: 4
Hui Xiong
Hui Xiong
Citations: 127
h-index: 2

연구 아이디어 생성은 자동화된 과학 연구의 혁신을 이끄는 핵심 단계입니다. 최근, 대규모 언어 모델(LLM)은 대규모 아이디어 생성을 자동화할 수 있는 잠재력을 보여주었습니다. 그러나 기존 방법은 주로 관련 문헌의 정적 검색이나 복잡한 프롬프트 엔지니어링을 통해 아이디어 생성을 유도하며, 참고 문헌 간의 구조적 관계를 고려하지 않습니다. 본 연구에서는 Graphs of Research (GoR)라는 지도 학습 기반 미세 조정 방법을 제안합니다. GoR은 각 핵심 논문에 대해 2홉의 참고 문헌 이웃을 추출하고, 인용 위치, 빈도, 선행 링크 및 발행 시간을 통해 해당 참고 문헌 간의 관계를 파악하여 논문 진화 방향성 비순환 그래프(DAG)로 구성합니다. 본 연구에서는 5개의 주요 머신러닝/자연어 처리 학술지에서 데이터를 수집하여 498개의 학습 논문, 50개의 검증 논문, 50개의 테스트 논문 및 약 7,600개의 인용 참고 문헌으로 구성된 자동 추출 파이프라인을 구축했습니다. Qwen2.5-7B-Instruct-1M 모델을 인용 그래프, 엣지 신호, 참고 문헌 정보 및 작업 정의를 포함하는 구조화된 텍스트 프롬프트로 미세 조정하여 핵심 논문에 대한 아이디어를 예측하도록 합니다. GPT-4O를 기반으로 한 기준 모델과의 직접적인 비교 평가에서, GoR-SFT는 최고의 성능을 달성하며, 인용 진화 그래프가 LLM 기반 아이디어 생성에 대한 효과적인 지도 신호임을 입증합니다. 본 연구를 통해 인용 진화 그래프를 활용한 자동화된 과학 혁신을 가속화할 수 있기를 바랍니다.

Original Abstract

Research idea generation is the innovation-driving step of automated scientific research. Recently, large language models (LLMs) have shown potential for automating idea generation at scale. However, existing methods mainly condition LLMs on eliciting idea generation through static retrieval of relevant literature or complex prompt engineering, without discarding the structural relations among references. We propose Graphs of Research (GoR), a supervised fine-tuning method that extracts a 2-hop reference neighborhood for each seed paper, derives the relations among those references from citation position, frequency, predecessor links, and publication time, and organizes them into a paper-evolution directed acyclic graph (DAG). We construct an automated extraction pipeline that draws data from five major ML/NLP venues, comprising 498/50/50 train/validation/test seed papers and approximately 7,600 cited references. Qwen2.5-7B-Instruct-1M is fine-tuned on a structured-text prompt that includes the citation graph, edge signals, reference information, and task definition to predict the idea for the seed paper. Across head-to-head LLM-judge tournaments against gpt-4o-driven baselines, GoR-SFT achieves SOTA, demonstrating the effectiveness of citation-evolution graphs as supervision signal for LLM-based idea generation. We hope that this reduces the barrier for citation evolution graphs as a supervision, accelerating automated scientific innovation.

0 Citations
0 Influential
3 Altmetric
15.0 Score
Original PDF

No Analysis Report Yet

This paper hasn't been analyzed by Gemini yet.

Log in to request an AI analysis.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!