MoE-ACT: 지도형 앙상블 전문가 모델을 활용한 수술 시뮬레이션 학습 정책 개선
MoE-ACT: Improving Surgical Imitation Learning Policies through Supervised Mixture-of-Experts
모방 학습은 로봇 조작 분야에서 뛰어난 성과를 거두었지만, 수술 로봇 분야에 적용하기에는 데이터 부족, 제한적인 작업 공간, 그리고 극도로 높은 수준의 안전성과 예측 가능성이 요구되기 때문에 어려움이 있습니다. 본 연구에서는 단계별 수술 조작 작업에 적합하도록 설계된 지도형 앙상블 전문가(MoE) 아키텍처를 제안하며, 이는 기존의 자율 제어 정책 위에 추가될 수 있습니다. 기존의 수술 로봇 학습 방법이 다중 카메라 시스템이나 수천 건의 시연 데이터에 의존하는 반면, 본 연구에서는 액션 청킹 트랜스포머(ACT)와 같은 경량 액션 디코더 정책이 입체 내시경 이미지만을 사용하여 150건 미만의 시연 데이터로 복잡하고 장기적인 조작을 학습할 수 있음을 보여줍니다. 본 연구에서는 로봇 보조 장치가 인간 외과의의 시각적 신호를 해석하고, 변형된 조직에 대한 표적적인 조작을 수행하며, 지속적인 후퇴를 수행하는 장 협착 및 후퇴 협업 수술 작업에 대한 성능을 평가했습니다. 본 연구 방법론은 최첨단 비전-언어-액션(VLA) 모델 및 표준 ACT 기준과 비교되었습니다. 실험 결과, 일반적인 VLA 모델은 표준 데이터 분포 환경에서도 작업을 완전히 학습하지 못하는 것으로 나타났습니다. 또한, 표준 ACT는 어느 정도의 성공을 거두지만, 지도형 MoE 아키텍처를 적용하면 성능이 크게 향상되어, 데이터 분포 환경에서 더 높은 성공률을 달성하고, 새로운 조작 위치, 감소된 조명, 부분적인 가려짐과 같은 데이터 분포 외 환경에서도 더 뛰어난 안정성을 보이는 것을 확인했습니다. 특히, 본 연구 결과는 새로운 테스트 시점에서 일반화 가능하며, 추가적인 학습 없이도 돼지 조직에 대한 제로샷 전이도 가능하여, 실제 수술 환경에 적용될 수 있는 유망한 경로를 제시합니다. 이를 뒷받침하기 위해, 실제 돼지 수술 과정에서의 정책 실행에 대한 예비적인 결과를 제시합니다.
Imitation learning has achieved remarkable success in robotic manipulation, yet its application to surgical robotics remains challenging due to data scarcity, constrained workspaces, and the need for an exceptional level of safety and predictability. We present a supervised Mixture-of-Experts (MoE) architecture designed for phase-structured surgical manipulation tasks, which can be added on top of any autonomous policy. Unlike prior surgical robot learning approaches that rely on multi-camera setups or thousands of demonstrations, we show that a lightweight action decoder policy like Action Chunking Transformer (ACT) can learn complex, long-horizon manipulation from less than 150 demonstrations using solely stereo endoscopic images, when equipped with our architecture. We evaluate our approach on the collaborative surgical task of bowel grasping and retraction, where a robot assistant interprets visual cues from a human surgeon, executes targeted grasping on deformable tissue, and performs sustained retraction. We benchmark our method against state-of-the-art Vision-Language-Action (VLA) models and the standard ACT baseline. Our results show that generalist VLAs fail to acquire the task entirely, even under standard in-distribution conditions. Furthermore, while standard ACT achieves moderate success in-distribution, adopting a supervised MoE architecture significantly boosts its performance, yielding higher success rates in-distribution and demonstrating superior robustness in out-of-distribution scenarios, including novel grasp locations, reduced illumination, and partial occlusions. Notably, it generalizes to unseen testing viewpoints and also transfers zero-shot to ex vivo porcine tissue without additional training, offering a promising pathway toward in vivo deployment. To support this, we present qualitative preliminary results of policy roll-outs during in vivo porcine surgery.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.
Log in to request an AI analysis.