2603.07909v1 Mar 09, 2026 cs.RO

순수 시각 기반 기관지 내시경 로봇 자율화를 위한 장단기 에이전트

Long-Short Term Agents for Pure-Vision Bronchoscopy Robotic Autonomy

Junyang Wu
Junyang Wu
Citations: 9
h-index: 2
F. Xie
F. Xie
Citations: 925
h-index: 18
Minghui Zhang
Minghui Zhang
Citations: 437
h-index: 13
Hanxiao Zhang
Hanxiao Zhang
Citations: 314
h-index: 10
Jiayuan Sun
Jiayuan Sun
Citations: 125
h-index: 7
Yun Gu
Yun Gu
Citations: 140
h-index: 5
Guang-Zhong Yang
Guang-Zhong Yang
Citations: 205
h-index: 1
Mingyi Luo
Mingyi Luo
Citations: 0
h-index: 0
Chunxi Zhang
Chunxi Zhang
Citations: 30
h-index: 3
Junhao Wang
Junhao Wang
Citations: 0
h-index: 0

로봇 보조 내시경 시술에서 정확한 수술 중 내비게이션은 필수적이지만, 제한적인 내시경 시야와 동적인 왜곡 현상으로 인해 여전히 어렵습니다. 기존 내비게이션 시스템은 종종 전자기 추적 또는 형상 감지 등의 외부 위치 추적 기술에 의존하는데, 이는 하드웨어 복잡성을 증가시키고 수술 중 발생하는 해부학적 불일치에 취약합니다. 본 연구에서는 외부 추적 장치 없이, 수술 전 CT 영상에서 얻은 가상 타겟과 실시간 내시경 영상을 활용하여 장기적인 기관지 내시경 내비게이션을 수행하는 시각 기반 자율 시스템 프레임워크를 제시합니다. 이 프레임워크는 계층적인 장단기 에이전트를 사용합니다. 단기 에이전트는 낮은 지연 시간으로 지속적인 움직임 제어를 담당하고, 장기 에이전트는 해부학적으로 불확실한 지점에서 의사 결정을 지원합니다. 에이전트의 제안이 충돌하는 경우, 세계 모델 기반의 비평기는 후보 행동에 대한 미래 시각 상태를 예측하고, 예측된 상태가 타겟 시야와 가장 일치하는 행동을 선택합니다. 본 시스템은 고정밀 기관지 모형, 세 개의 돼지 폐 조직, 그리고 살아있는 돼지 모델에서 평가되었습니다. 시스템은 모형에서 계획된 모든 분절 타겟에 도달했으며, ex vivo 환경에서는 80%의 성공률을 유지했고, 생체 내 환경에서는 숙련된 기관지 내시경 전문의와 비교 가능한 내비게이션 성능을 달성했습니다. 이러한 결과는 센서 없이 자율적인 기관지 내시경 내비게이션의 전임상적 가능성을 뒷받침합니다.

Original Abstract

Accurate intraoperative navigation is essential for robot-assisted endoluminal intervention, but remains difficult because of limited endoscopic field of view and dynamic artifacts. Existing navigation platforms often rely on external localization technologies, such as electromagnetic tracking or shape sensing, which increase hardware complexity and remain vulnerable to intraoperative anatomical mismatch. We present a vision-only autonomy framework that performs long-horizon bronchoscopic navigation using preoperative CT-derived virtual targets and live endoscopic video, without external tracking during navigation. The framework uses hierarchical long-short agents: a short-term reactive agent for continuous low-latency motion control, and a long-term strategic agent for decision support at anatomically ambiguous points. When their recommendations conflict, a world-model critic predicts future visual states for candidate actions and selects the action whose predicted state best matches the target view. We evaluated the system in a high-fidelity airway phantom, three ex vivo porcine lungs, and a live porcine model. The system reached all planned segmental targets in the phantom, maintained 80\% success to the eighth generation ex vivo, and achieved in vivo navigation performance comparable to the expert bronchoscopist. These results support the preclinical feasibility of sensor-free autonomous bronchoscopic navigation.

0 Citations
0 Influential
9 Altmetric
45.0 Score
Original PDF

No Analysis Report Yet

This paper hasn't been analyzed by Gemini yet.

Log in to request an AI analysis.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!