April 2026
Time Period
Summary
Explore
Trending Papers
Most popular papers from the last 1 week
StarVLA-$α$: 비전-언어-액션 시스템의 복잡성 감소 StarVLA-$α$: Reducing Complexity in Vision-Language-Action Systems
최근 비전-언어-액션(VLA) 모델은 범용 로봇 에이전트 구축을 위한 유망한 패러다임으로 부상했습니다. 그러나 기존 VLA 연구는 아키텍처, 학습 데이터, 로봇 구성, 벤치마크별 최적화 등 다양한 측면에서 복잡하고 단편적인 경향을 보입니다. 본 연구에서는 통제된 조건에서 VLA 설계 요소를 연구하기 위한 간단하면서도 강력한 기본 모델인 StarVLA-$α$를 소개합니다. StarVLA-$α$는 실험적 변수를 줄이고 체계적인 분석을 가능하게 하기 위해 아키텍처 및 파이프라인의 복잡성을 의도적으로 최소화합니다. 특히, 액션 모델링 전략, 로봇 특화 사전 학습, 인터페이스 엔지니어링 등 주요 설계 요소를 재평가합니다. LIBERO, SimplerEnv, RoboTwin, RoboCasa 등 다양한 벤치마크에서 동일한 간단한 기본 모델이 높은 경쟁력을 유지하는 것으로 나타났습니다. 이는 강력한 VLM(Vision-Language Model) 기반 모델과 최소한의 설계만으로도 추가적인 아키텍처 복잡성이나 엔지니어링 기술 없이도 강력한 성능을 달성할 수 있음을 시사합니다. 주목할 만한 점은, 당사의 단일 범용 모델이 공개된 실제 환경 RoboChallenge 벤치마크에서 $π_{0.5}$보다 20% 더 우수한 성능을 보였습니다. StarVLA-$α$는 향후 VLA 연구를 위한 견고한 출발점이 될 것으로 기대됩니다. 코드 및 관련 자료는 https://github.com/starVLA/starVLA 에서 확인할 수 있습니다.
DMax: dLLM을 위한 공격적인 병렬 디코딩 DMax: Aggressive Parallel Decoding for dLLMs
본 논문에서는 효율적인 디퓨전 언어 모델(dLLM)을 위한 새로운 패러다임인 DMax를 제시합니다. DMax는 병렬 디코딩 과정에서의 오류 누적을 완화하여, 생성 품질을 유지하면서 공격적인 병렬 디코딩을 가능하게 합니다. 기존의 마스크 기반 dLLM과는 달리, DMax는 디코딩을 이진 마스크-토큰 변환 과정이 아닌, 마스크 임베딩에서 토큰 임베딩으로의 점진적인 자체 개선 과정으로 재구성합니다. 저희 접근 방식의 핵심은 On-Policy Uniform Training이라는 새로운 학습 전략으로, 이를 통해 마스크 기반 dLLM과 균일 기반 dLLM을 효율적으로 통합하고, 모델이 마스크 입력과 자체의 오류 예측으로부터 모두 정확한 토큰을 복구할 수 있도록 합니다. 이러한 기반 위에, 저희는 Soft Parallel Decoding을 추가적으로 제안합니다. 각 중간 디코딩 상태를 예측된 토큰 임베딩과 마스크 임베딩 사이의 보간값으로 표현하여, 임베딩 공간에서 반복적인 자체 수정이 가능하도록 합니다. 다양한 벤치마크를 사용한 광범위한 실험 결과는 DMax의 효과를 입증합니다. 원본 LLaDA-2.0-mini와 비교하여, 저희 방법은 GSM8K에서 TPF를 2.04에서 5.47로 향상시키면서 정확도를 유지합니다. MBPP에서는 TPF를 2.71에서 5.86으로 증가시키면서도 유사한 성능을 유지합니다. 두 개의 H200 GPU에서 저희 모델은 배치 크기 1에서 평균 1,338 TPS를 달성합니다. 코드: https://github.com/czg1225/DMax
문제 축소 기법의 확장: 계산적으로 어려운 문제에 대한 에이전트 기반 통합 Problem Reductions at Scale: Agentic Integration of Computationally Hard Problems
NP-hard 최적화 문제를 해결하는 데는 종종 특정 솔버(양자 하드웨어, 상용 최적화 도구 또는 도메인 휴리스틱)에 맞게 문제를 재구성해야 합니다. 어려운 문제 간의 다항 시간 축소 기능을 제공하는 도구는 사용자가 단일 인터페이스를 통해 지원되는 모든 문제를 지원되는 모든 솔버로 연결할 수 있게 해줍니다. 그러나 이러한 라이브러리를 대규모로 구축하는 것은 어려움이 있었습니다. 본 연구에서는 제약 조건, 검증 시스템 및 피드백 루프를 설계하여 AI 코딩 에이전트를 제어하는 '하네스 엔지니어링' 기술이 이러한 장벽을 극복할 수 있음을 보여줍니다. 저희의 하네스는 도메인 전문가를 위한 노코드 기여 경로, 타입 수준 검사부터 에이전트 기반 기능 테스트(사용자 역할을 하는 AI 에이전트)에 이르는 다층 검증 스택, 그리고 완전히 자동화된 구현-검토-통합 파이프라인을 결합합니다. 약 3개월 동안, 저희는 100개 이상의 문제 유형과 200개 이상의 축소 규칙을 포함하는 17만 줄 이상의 Rust 코드로 구성된 라이브러리를 기반으로 하는 명령줄 도구를 구축했습니다. 그 결과는 잘 설계된 하네스를 통해 에이전트가 기존의 축소 라이브러리 노력보다 더 큰 규모와 속도로 잘 테스트된 소프트웨어를 구축할 수 있음을 시사합니다. 축소 그래프가 추이적으로 구성되기 때문에, 단일 문제 유형에 등록된 새로운 솔버는 축소 경로로 연결된 모든 문제에 즉시 사용 가능해집니다. 소스 코드는 https://github.com/CodingThrust/problem-reductions 에서 확인할 수 있습니다.
에이전트 기반 멀티모달 웹 기록을 활용한 학습 기반 그래프 메모리를 통한 작업 적응형 정보 검색 Task-Adaptive Retrieval over Agentic Multi-Modal Web Histories via Learned Graph Memory
긴 멀티모달 웹 상호작용 기록에서 관련 정보를 검색하는 것은 어려운데, 그 이유는 관련성이 변화하는 작업 상태, 모달리티(스크린샷, HTML 텍스트, 구조화된 신호) 및 시간적 거리에 따라 달라지기 때문이다. 기존 접근 방식은 일반적으로 정적인 유사성 임계값 또는 고정 용량 버퍼에 의존하는데, 이는 현재 작업 컨텍스트에 대한 관련성을 적응적으로 반영하지 못한다. 본 논문에서는 정책 경사 최적화를 통해 하위 작업 성공률을 기반으로 에이전트 기록에 대한 *작업 적응형* 관련성 그래프를 구축하는 학습 기반 그래프 메모리 검색 시스템인 **ACGM**을 제안한다. ACGM은 모달리티별 감쇠율을 통해 이질적인 시간적 동적 특성을 포착한다 (시각 정보는 텍스트보다 4.3배 빠르게 감쇠: $λ_v{=}0.47$ vs. ext{ } $λ_x{=}0.11$) 및 희소 연결(노드당 3.2개 엣지)을 학습하여 효율적인 $O( ext{log }T)$ 검색을 가능하게 한다. WebShop, VisualWebArena, Mind2Web 데이터셋에서 ACGM은 검색 품질을 **82.7 nDCG@10** (+9.3, $p{<}0.001$) 및 **89.2% Precision@10** (+7.7)으로 향상시켜, 19개의 강력한, 밀집형, 재순위화, 멀티모달 및 그래프 기반의 기존 모델보다 우수한 성능을 보인다. 본 논문의 결과를 재현할 수 있는 코드는 다음 GitHub 주소에서 제공된다: { extcolor{blue}{https://github.com/S-Forouzandeh/ACGM-Agentic-Web}}.
PIArena: 프롬프트 주입 평가 플랫폼 PIArena: A Platform for Prompt Injection Evaluation
프롬프트 주입 공격은 다양한 실제 응용 분야에서 심각한 보안 위험을 초래합니다. 최근 많은 관심을 받고 있지만, 프롬프트 주입 평가를 위한 통합 플랫폼의 부재라는 중요한 문제가 존재합니다. 이는 방어 기법의 신뢰성 있는 비교, 다양한 공격 환경에서의 진정한 견고성 이해, 그리고 다양한 작업 및 벤치마크에서의 일반화 정도 평가를 어렵게 만듭니다. 실제로 처음에는 효과적인 것으로 보고된 많은 방어 기법들이 다양한 데이터셋과 공격에 대해 제한적인 견고성을 보이는 것으로 나타났습니다. 이러한 문제를 해결하기 위해, 우리는 최첨단 공격 및 방어 기법을 쉽게 통합하고 기존 및 새로운 벤치마크에서 평가할 수 있도록 설계된 통합적이고 확장 가능한 프롬프트 주입 평가 플랫폼인 PIArena를 소개합니다. 또한, 방어 시스템의 피드백에 따라 주입되는 프롬프트를 능동적으로 최적화하는 동적 전략 기반 공격 방식을 설계했습니다. PIArena를 사용하여 수행한 종합적인 평가를 통해, 최첨단 방어 기법의 중요한 한계점, 즉 작업 간의 제한적인 일반화, 적응형 공격에 대한 취약성, 그리고 주입된 작업이 대상 작업과 일치할 때 발생하는 근본적인 어려움을 밝혀냈습니다. 코드와 데이터셋은 https://github.com/sleeepeer/PIArena 에서 확인할 수 있습니다.
HM-Bench: 다중 모드 대규모 언어 모델을 위한 종합적인 벤치마크 - 하이퍼스펙트럴 원격 감지 분야 HM-Bench: A Comprehensive Benchmark for Multimodal Large Language Models in Hyperspectral Remote Sensing
다중 모드 대규모 언어 모델(MLLM)은 자연 이미지 이해 분야에서 상당한 발전을 이루었지만, 원격 감지에 중요한 역할을 하는 하이퍼스펙트럴 이미지(HSI)를 인식하고 추론하는 능력은 아직 충분히 연구되지 않았습니다. HSI는 높은 차원과 복잡한 스펙트럼-공간 특성을 가지므로, 주로 RGB 데이터로 훈련된 모델에게는 독특한 어려움을 제시합니다. 이러한 격차를 해소하기 위해, 우리는 MLLM의 HSI 이해 능력을 평가하기 위해 특별히 설계된 최초의 벤치마크인 하이퍼스펙트럴 다중 모드 벤치마크(HM-Bench)를 소개합니다. 우리는 13가지 작업 범주에 걸쳐 총 19,337개의 질문-답변 쌍으로 구성된 대규모 데이터 세트를 구축했으며, 이는 기본적인 인식부터 스펙트럴 추론에 이르기까지 다양한 수준을 포함합니다. 기존의 MLLM은 원시 하이퍼스펙트럴 데이터를 직접 처리할 수 없으므로, 우리는 HSI 데이터를 두 가지 상호 보완적인 표현으로 변환하는 이중 모드 평가 프레임워크를 제안합니다. 이러한 접근 방식은 모델 성능에 대한 다양한 표현의 체계적인 비교를 가능하게 합니다. 18개의 대표적인 MLLM에 대한 광범위한 평가 결과, 복잡한 공간-스펙트럴 추론 작업을 처리하는 데 상당한 어려움이 있음을 보여줍니다. 또한, 우리의 결과는 시각적 입력이 일반적으로 텍스트 입력보다 우수한 성능을 보인다는 것을 보여주며, 이는 효과적인 HSI 이해를 위해서는 스펙트럼-공간 증거에 기반한 학습의 중요성을 강조합니다. 데이터 세트 및 추가 자료는 다음 주소에서 확인할 수 있습니다: https://github.com/HuoRiLi-Yu/HM-Bench.
LLM RLVR 가속화를 위한 저랭크 최적화 경로 모델링 Low-rank Optimization Trajectories Modeling for LLM RLVR Acceleration
최근, 대규모 언어 모델(LLM)에 대한 검증 가능한 보상을 활용한 강화 학습(RLVR)은 모델 성능을 크게 향상시키는 효과적인 학습 패러다임으로 부상했지만, 모델이 광범위한 탐색과 학습을 수행하도록 유도해야 하므로 상당한 계산 비용이 발생하며, 이는 주요 과제가 되고 있습니다. 훈련 단계를 줄이기 위해 기존 연구에서는 모델 파라미터를 선형 보간하는 방법을 사용합니다. 그러나 RLVR 훈련 과정에서 모델 파라미터 업데이트의 동역학은 아직 충분히 이해되지 않고 있습니다. 본 연구에서는 RLVR 훈련 과정에서의 LLM의 진화를 더 자세히 조사하기 위해 실험을 진행한 결과, 모델의 랭크-1 부분 공간이 선형적으로 변하지 않으며, 특히 LoRA 훈련 과정에서 원래 파라미터에 대한 지배력이 더욱 강화되는 것을 확인했습니다. 이러한 통찰력을 바탕으로, 우리는 저랭크 파라미터 경로를 비선형적으로 모델링하고 추정하는 새로운 프레임워크인 **N**onlinear **Ext**rapolation of low-rank trajectories (**NExt**)를 제안합니다. 구체적으로, 우리는 먼저 LoRA를 사용하여 모델을 훈련하고, 여러 훈련 단계에서 파라미터 차이의 랭크-1 부분 공간을 추출합니다. 이 추출된 부분 공간은 이후의 비선형 추정에 사용됩니다. 그런 다음, 추출된 랭크-1 부분 공간을 사용하여 RLVR 훈련 과정에서 파라미터 업데이트 경로를 모델링할 수 있는 예측 모델을 훈련하고, 예측-확장 과정을 통해 모델 파라미터를 추정하여 RLVR을 가속화합니다. NExt의 효과와 견고성을 입증하기 위해 종합적인 실험을 수행했습니다. 본 연구의 방법은 약 37.5%의 계산 비용을 절감하는 동시에 다양한 RLVR 알고리즘 및 작업과 호환됩니다. 저희는 코드를 다음 주소에서 공개합니다: https://github.com/RUCAIBox/NExt.
METRO: 전문가 대화 기록을 활용한 비협력적 대화 전략 유도 METRO: Towards Strategy Induction from Expert Dialogue Transcripts for Non-collaborative Dialogues
기존의 비협력적 대화형 에이전트 개발은 전문가 전략을 수동으로 코딩해야 하며, 이는 확장 가능성이 낮습니다. 본 논문에서는 대규모 언어 모델을 활용하여 원본 대화 기록으로부터 전략 행동 및 계획 로직을 자동으로 유도하는 방법인 METRO를 제안합니다. METRO는 전문가 지식을 전략 숲(Strategy Forest)이라는 계층적 구조로 형식화하며, 이 구조는 단기적인 응답(노드)과 장기적인 전략적 예측(가지)을 모두 포괄합니다. 두 가지 벤치마크에 대한 실험 결과, METRO는 기존 방법보다 평균 9~10% 더 우수한 성능을 보여주었습니다. 추가 분석을 통해 METRO의 성공 요인(다양한 전략적 행동 및 예측 능력)을 확인했으며, 또한 다양한 작업 간의 강력한 전이 가능성을 입증했습니다. 이는 비용 효율적이고 확장 가능한 방식으로 비협력적 에이전트를 구축하는 데 새로운 통찰력을 제공합니다. 저희의 코드는 https://github.com/Humphrey-0125/METRO 에서 확인할 수 있습니다.
WebForge: 브라우저 에이전트 벤치마크의 현실성-재현성-확장성 삼각함수 문제 해결 WebForge: Breaking the Realism-Reproducibility-Scalability Trilemma in Browser Agent Benchmark
기존 브라우저 에이전트 벤치마크는 근본적인 삼각함수 문제를 안고 있습니다. 현실 웹 기반 벤치마크는 콘텐츠 변화로 인해 재현성이 떨어지고, 통제된 환경은 실제 웹 환경의 노이즈를 배제하여 현실성을 희생하며, 이러한 모든 벤치마크는 비용이 많이 드는 수동 관리가 필요하여 확장성을 제한합니다. 본 논문에서는 WebForge를 소개합니다. WebForge는 인간의 주석 없이 인터랙티브하고 완전한 웹 환경을 처음부터 끝까지 생성하는 4단계 파이프라인(계획, 생성, 개선, 검증)을 통해 이 삼각함수 문제를 해결하는 최초의 완전 자동화 프레임워크입니다. 7차원의 난이도 제어 프레임워크는 탐색 깊이, 시각적 복잡성, 추론 난이도 등을 포함한 다양한 요소를 통해 작업 설계를 구조화하여 단일의 집계 점수로는 파악할 수 없는 체계적인 능력 프로파일링을 가능하게 합니다. WebForge를 사용하여 7개 도메인과 3개의 난이도 레벨을 포괄하는 934개의 작업으로 구성된 벤치마크인 WebForge-Bench를 구축했습니다. 다중 모델 실험 결과, 난이도 분류는 모델의 능력을 효과적으로 구분하며, 교차 도메인 분석은 집계 지표로는 파악할 수 없는 능력 편향을 드러냅니다. 이러한 결과는 다차원 평가가 단일 집계 점수로는 파악할 수 없는 뚜렷한 능력 프로필을 보여준다는 것을 확인합니다. 코드 및 벤치마크는 https://github.com/yuandaxia2001/WebForge 에서 공개적으로 이용할 수 있습니다.
교차 언어 음성 언어 모델을 위한 효율적인 학습 방법 Efficient Training for Cross-lingual Speech Language Models
현재, 대규모 언어 모델(LLM)은 주로 텍스트 모달리티에 초점을 맞추고 있습니다. 보다 자연스러운 인간-AI 상호작용을 가능하게 하기 위해 음성 LLM이 등장하고 있지만, 제한된 데이터와 더 많은 언어로 확장하기 어려운 문제로 인해 효과적인 엔드 투 엔드 음성 LLM을 구축하는 것은 여전히 어려운 과제입니다. 본 논문에서는 이산적인 음성 토큰을 기반으로 교차 언어 음성 LLM을 위한 효율적인 학습 방법인 Cross-lingual Speech Language Model (CSLM)을 소개합니다. 우리는 지속적인 사전 학습을 통해 교차 모달 및 교차 언어 정렬을 달성하는 새로운 정렬 전략을 제안합니다. 음성-텍스트 교차 모달 생성 과정을 통해 지시 사항에 따른 미세 조정을 수행함으로써, 더욱 세밀한 수준에서 모달 정렬을 강화하여 생성 품질을 향상시키고 지연 시간을 줄입니다. CSLM은 방대한 음성 데이터 없이 다양한 모달리티와 언어를 동시에 정렬할 수 있으므로, 뛰어난 언어 확장성을 보여줍니다. 교차 모달 작업, 단일 언어 대화 작업, 그리고 교차 언어 대화 작업에 대한 평가 결과는 CSLM의 강력한 교차 모달 정렬 능력과 일반적인 작업 능력을 입증합니다. (코드: https://github.com/ictnlp/CSLM)