March 2026

Time Period

Summary

Total Papers

401

Explore

Trending Papers

Most popular papers from the last 1 week

Sort by

#1 2603.15619v1 Mar 16, 2026 cs.CL

심층 혼합 어텐션 (Mixture-of-Depths Attention) Mixture-of-Depths Attention

심층 구조는 거대 언어 모델(LLM)의 성능 향상에 중요한 역할을 합니다. 그러나 LLM이 깊어질수록, 신호 감쇠 현상이 발생합니다. 즉, 얕은 레이어에서 형성된 유용한 특징들이 반복적인 잔차 업데이트 과정에서 점차 희석되어, 깊은 레이어에서 복구하기 어려워집니다. 본 논문에서는 각 어텐션 헤드가 현재 레이어의 시퀀스 KV 쌍과 함께 이전 레이어의 심층 KV 쌍에 접근할 수 있도록 하는 '심층 혼합 어텐션 (MoDA)'이라는 메커니즘을 제안합니다. 또한, MoDA의 효율적인 하드웨어 구현 알고리즘을 제시하여 비연속적인 메모리 접근 패턴을 해결하고, 시퀀스 길이가 64K일 때 FlashAttention-2의 효율성의 97.3%를 달성합니다. 15억 파라미터 모델에 대한 실험 결과, MoDA는 강력한 기준 모델들을 꾸준히 능가하는 성능을 보였습니다. 특히, 10개의 검증 벤치마크에서 평균 퍼플렉시티를 0.2만큼 향상시키고, 10개의 다운스트림 태스크에서 평균 성능을 2.11% 향상시키는 동시에, 계산량(FLOPs)은 3.7%의 미미한 증가만 발생했습니다. 또한, MoDA를 'post-norm'과 함께 사용할 때 'pre-norm'과 함께 사용하는 것보다 더 나은 성능을 보이는 것을 확인했습니다. 이러한 결과는 MoDA가 심층 구조 확장에 유망한 기술임을 시사합니다. 코드 및 관련 자료는 다음 링크에서 확인할 수 있습니다: https://github.com/hustvl/MoDA

Famous Author Kevin I-Kai Wang Lai Wei Lianghui Zhu +5

0 Citations

0 Influential

52.5 Altmetric

Score: 262.6

#2 2603.11896v1 Mar 12, 2026 cs.CV

보는 동시에 생각하기: 다중 모달 대규모 언어 모델에서 다중 회전 비디오 추론을 위한 온라인 스트리밍 세그먼트 레벨 메모리 Think While Watching: Online Streaming Segment-Level Memory for Multi-Turn Video Reasoning in Multimodal Large Language Models

다중 모달 대규모 언어 모델(MLLM)은 오프라인 비디오 이해에서 뛰어난 성능을 보여주었지만, 대부분은 오프라인 추론에 제한되거나 온라인 추론 능력이 약하여 지속적으로 입력되는 비디오 스트림에 대한 다중 회전 상호 작용이 어렵습니다. 기존의 스트리밍 방식은 일반적으로 인지-생성 과정을 번갈아 수행하는 방식을 사용하는데, 이는 동시적인 인지와 생성을 방해하고 스트림이 증가함에 따라 초기 메모리 감쇠를 유발하여 장거리 의존성 모델링에 부정적인 영향을 미칩니다. 본 논문에서는 다중 회전 상호 작용 동안 지속적인 세그먼트 레벨 메모리를 유지하는 메모리 기반 스트리밍 비디오 추론 프레임워크인 '보는 동시에 생각하기'를 제안합니다. 우리는 세 단계로 구성된 다중 회전 추론 데이터셋을 구축하고, 세그먼트 레벨 스트리밍 인과 마스크 및 스트리밍 위치 인코딩을 통해 엄격한 인과 관계를 적용하는 동시에, 단계에 맞는 학습 전략을 채택했습니다. 추론 과정에서, 우리는 비디오 시청과 사고 과정을 겹쳐서 처리하는 효율적인 파이프라인을 도입하고, 최적의 어텐션 백엔드를 적응적으로 선택합니다. 단일 회전 및 다중 회전 스트리밍 입력 프로토콜 모두에서, 제안하는 방법은 뛰어난 결과를 달성했습니다. Qwen3-VL을 기반으로 구축되었으며, StreamingBench에서 단일 회전 정확도를 2.6% 향상시키고, OVO-Bench에서 3.79% 향상시켰습니다. 다중 회전 설정에서는 성능을 유지하면서 출력 토큰 수를 56% 줄였습니다. 코드: https://github.com/wl666hhh/Think_While_Watching/

Famous Author Kevin I-Kai Wang Beijing Chinese Academy of Sciences +10

0 Citations

0 Influential

45.0 Altmetric

Score: 225.2

#3 2603.16261v1 Mar 17, 2026 cs.CV

AW-MoE: 악천후 환경에서도 견고한 다중 모드 3차원 객체 탐지를 위한 모든 환경 혼합 전문가 모델 AW-MoE: All-Weather Mixture of Experts for Robust Multi-Modal 3D Object Detection

악천후 조건에서도 안정적인 3차원 객체 탐지는 자율 주행에 매우 중요합니다. 그러나 대부분의 기존 방법은 훈련 시 모든 날씨 데이터를 단순히 결합하며, 다양한 날씨 시나리오 간의 데이터 분포 차이를 간과하여 성능 저하를 초래합니다. 이러한 문제를 해결하기 위해, 우리는 날씨 변화에 강인한 다중 모드 3차원 객체 탐지 기술에 Mixture of Experts (MoE)를 혁신적으로 통합한 AW-MoE 프레임워크를 제안합니다. AW-MoE는 이미지 기반의 날씨 인지 라우팅(Image-guided Weather-aware Routing, IWR)을 통합하여, 다양한 날씨 조건에서 이미지 특징의 뛰어난 구별력과 장면 변화에 대한 불변성을 활용하여 정확한 날씨 분류를 수행합니다. 이 정확한 분류를 바탕으로, IWR은 데이터 불일치를 처리하는 상위 K개의 관련 날씨 특화 전문가(Weather-Specific Experts, WSE)를 선택하여 모든 날씨 조건에서 최적의 탐지 성능을 보장합니다. 또한, 우리는 LiDAR와 4D 레이더의 동기화된 다중 모드 데이터 증강을 위해 장면의 현실감을 유지하는 Unified Dual-Modal Augmentation (UDMA)를 제안합니다. 실제 데이터셋에 대한 광범위한 실험 결과, AW-MoE는 최첨단 방법보다 악천후 성능이 약 15% 향상되는 것을 보여주었으며, 추론 오버헤드는 미미합니다. 또한, AW-MoE를 기존의 기본 탐지기에 통합하면 현재 최첨단 방법보다 더 뛰어난 성능 향상을 얻을 수 있습니다. 이러한 결과는 AW-MoE의 효과성과 확장성을 입증합니다. AW-MoE 코드는 https://github.com/windlinsherlock/AW-MoE 에서 공개될 예정입니다.

Famous Author Kevin I-Kai Wang Hongwei Lin Chenglu Wen +1

0 Citations

0 Influential

37.0 Altmetric

Score: 185.0

#4 2603.14769v1 Mar 16, 2026 cs.LG

POLCA: LLM을 활용한 확률적 생성 최적화 POLCA: Stochastic Generative Optimization with LLM

LLM 프롬프트부터 다중 턴 에이전트까지, 복잡한 시스템을 최적화하는 것은 전통적으로 많은 노동력을 필요로 하는 수동 반복 작업을 포함합니다. 본 연구에서는 이러한 과제를 확률적 생성 최적화 문제로 공식화하고, 생성 언어 모델이 수치적 보상과 텍스트 피드백에 의해 안내되어 최적의 시스템을 찾아내는 최적화 도구로 작동하도록 합니다. 우리는 Prioritized Optimization with Local Contextual Aggregation (POLCA)이라는 확장 가능한 프레임워크를 소개합니다. POLCA는 노이즈가 많은 피드백, 샘플링 미니배치, 확률적 시스템 동작과 같은 최적화 과정에서의 불확실성을 처리하고, 동시에 해결 공간의 제약 없는 확장을 효과적으로 관리하도록 설계되었습니다. POLCA는 탐색과 활용 사이의 균형을 관리하기 위해 우선순위 큐를 유지하며, 후보 솔루션과 해당 평가 기록을 체계적으로 추적합니다. 효율성을 높이기 위해, POLCA는 파라미터 다양성을 유지하기 위한 $\varepsilon$-Net 메커니즘과, 과거 시도에서 메타 학습을 수행하기 위한 LLM Summarizer를 통합합니다. 본 연구에서는 POLCA가 확률적 환경에서도 거의 최적의 후보 솔루션으로 수렴한다는 것을 이론적으로 증명합니다. 또한, $τ$-bench, HotpotQA (에이전트 최적화), VeriBench (코드 번역) 및 KernelBench (CUDA 커널 생성)를 포함한 다양한 벤치마크에서 POLCA의 성능을 평가했습니다. 실험 결과는 POLCA가 결정론적 및 확률적 문제 모두에서 최첨단 알고리즘보다 뛰어난 견고하고, 샘플 및 시간 효율적인 성능을 제공한다는 것을 보여줍니다. 본 연구의 코드는 다음 GitHub 저장소에서 공개적으로 이용할 수 있습니다: https://github.com/rlx-lab/POLCA.

Xuan Ren Allen Nie Tengyang Xie +1

0 Citations

0 Influential

34.5 Altmetric

Score: 172.6

#5 2603.15401v1 Mar 16, 2026 cs.SE

SWE-Skills-Bench: 에이전트 기술은 실제 소프트웨어 엔지니어링에서 실제로 도움이 되는가? SWE-Skills-Bench: Do Agent Skills Actually Help in Real-World Software Engineering?

에이전트 기술은 추론 시점에 주입되는 구조화된 절차적 지식 패키지로, 소프트웨어 엔지니어링 작업에서 LLM 에이전트를 강화하는 데 점점 더 많이 사용되고 있습니다. 그러나 이러한 기술이 엔드 투 엔드 개발 환경에서 실제로 얼마나 유용한지는 아직 불분명합니다. 본 논문에서는 실제 소프트웨어 엔지니어링(SWE)에서 에이전트 기술의 편익을 명확하게 분석하는 요구사항 기반 벤치마크인 SWE-Skills-Bench를 소개합니다. SWE-Skills-Bench는 49개의 공개된 SWE 기술을 특정 커밋으로 고정된 실제 GitHub 저장소와 명확한 수용 기준이 포함된 요구사항 문서와 연결하여, 6개의 SWE 하위 영역에 걸쳐 약 565개의 작업 인스턴스를 생성합니다. 각 작업의 수용 기준을 실행 기반 테스트에 매핑하는 결정론적 검증 프레임워크를 도입하여, 기술을 사용하는 경우와 사용하지 않는 경우를 통제된 방식으로 비교 평가할 수 있습니다. 실험 결과, 기술 적용으로 인한 효과는 빠른 채택 속도만큼 크지 않다는 것을 보여줍니다. 49개의 기술 중 39개는 통과율 향상에 영향을 미치지 않았으며, 평균적인 향상은 +1.2%에 불과했습니다. 토큰 오버헤드는 미미한 절약부터 통과율이 변함에도 불구하고 451% 증가에 이르기까지 다양했습니다. 7개의 전문 기술만이 의미 있는 성능 향상(+30%까지)을 가져왔으며, 3개의 기술은 버전 불일치로 인해 프로젝트 컨텍스트와 충돌하여 성능 저하(-10%까지)를 초래했습니다. 이러한 결과는 에이전트 기술이 특정 영역에 한정된 개입이며, 그 유용성은 도메인 적합성, 추상화 수준 및 컨텍스트 호환성에 크게 의존한다는 것을 시사합니다. SWE-Skills-Bench는 소프트웨어 엔지니어링 에이전트에서 기술의 설계, 선택 및 배포를 평가하기 위한 테스트베드를 제공합니다. SWE-Skills-Bench는 https://github.com/GeniusHTX/SWE-Skills-Bench 에서 이용할 수 있습니다.

Lijie Hu Youcheng Sun Yi Zhang +4

0 Citations

0 Influential

34.0 Altmetric

Score: 170.0

#6 2603.16289v1 Mar 17, 2026 cs.CV

VisBrowse-Bench: 다중 모드 탐색 에이전트를 위한 시각 기반 검색 벤치마크 VisBrowse-Bench: Benchmarking Visual-Native Search for Multimodal Browsing Agents

다중 모드 대규모 언어 모델(MLLM)의 빠른 발전으로 인해 탐색 에이전트는 실제 세계의 다중 모드 정보를 습득하고 추론할 수 있게 되었습니다. 그러나 기존 벤치마크는 시각적 추론 능력의 부족한 평가와 웹 페이지의 고유한 시각 정보가 추론 과정에서 간과된다는 두 가지 한계를 가지고 있습니다. 이러한 문제점을 해결하기 위해, 우리는 시각 기반 검색을 위한 새로운 벤치마크인 VisBrowse-Bench를 소개합니다. 이 벤치마크는 다양한 도메인을 포괄하는 169개의 질의응답(VQA) 인스턴스를 포함하고 있으며, 텍스트-이미지 검색 및 통합 추론을 통해 다중 모드 증거 교차 검증을 통해 모델의 시각적 추론 능력을 평가합니다. 이 데이터는 인간 전문가가 다단계 파이프라인을 사용하여 구축했으며, 엄격한 수동 검증을 거쳤습니다. 또한, 우리는 탐색 과정에서 에이전트가 시각 정보를 적극적으로 수집하고 추론하도록 효과적으로 유도할 수 있는 에이전트 워크플로우를 제안합니다. 우리는 이 워크플로우에서 오픈 소스 및 클로즈드 소스 모델을 종합적으로 평가했습니다. 실험 결과는 Claude-4.6-Opus와 같은 가장 성능이 좋은 모델도 47.6%의 정확도에 불과하고, 독점 모델인 o3-deep-research는 41.1%의 정확도에 그친다는 것을 보여줍니다. 코드와 데이터는 다음 위치에서 확인할 수 있습니다: https://github.com/ZhengboZhang/VisBrowse-Bench

Kevin I-Kai Wang Jinbo Su Yifei Zhang +14

0 Citations

0 Influential

32.5 Altmetric

Score: 162.3

#7 2603.16596v1 Mar 17, 2026 cs.CV

FSMC-Pose: 다중 스케일 자가 보정을 이용한 주파수 및 공간 융합을 통한 소의 교배 자세 추정 FSMC-Pose: Frequency and Spatial Fusion with Multiscale Self-calibration for Cattle Mounting Pose Estimation

교배 자세는 낙농 소의 발정 상태를 나타내는 중요한 시각적 지표입니다. 그러나 복잡한 배경과 소들 간의 가려짐 현상으로 인해 실제 환경에서 신뢰성 있는 교배 자세 추정은 여전히 어려운 과제입니다. 본 논문에서는 가벼운 주파수-공간 융합 기반 모델인 CattleMountNet과 다중 스케일 자가 보정 모듈인 SC2Head를 통합한 상위 수준 프레임워크인 FSMC-Pose를 제시합니다. 특히, CattleMountNet의 성능 향상을 위해 Spatial Frequency Enhancement Block (SFEBlock)과 Receptive Aggregation Block (RABlock)이라는 두 가지 알고리즘 구성 요소를 설계했습니다. SFEBlock은 소를 복잡한 배경으로부터 분리하고, RABlock은 다중 스케일의 문맥 정보를 캡처합니다. Spatial-Channel Self-Calibration Head (SC2Head)는 공간적 및 채널 간의 의존성을 고려하고, 소들 간의 겹침 현상으로 인한 구조적 불일치를 완화하기 위한 자가 보정 브랜치를 도입합니다. 또한, 1176개의 교배 사례를 포함하는 MOUNT-Cattle 데이터셋을 구축했으며, 이는 COCO 형식에 따르며 다양한 자세 추정 모델에 적용할 수 있도록 설계되었습니다. MOUNT-Cattle 데이터셋과 공개된 NWAFU-Cattle 데이터셋을 결합한 광범위한 데이터셋을 사용하여 FSMC-Pose는 기존의 강력한 모델보다 높은 정확도를 달성했으며, 계산 및 파라미터 비용은 현저히 낮으면서 일반적인 GPU에서 실시간 추론이 가능합니다. 광범위한 실험과 질적 분석 결과, FSMC-Pose는 복잡하고 혼잡한 환경에서 소의 교배 자세를 효과적으로 캡처하고 추정할 수 있음을 보여줍니다. 데이터셋 및 코드는 https://github.com/elianafang/FSMC-Pose 에서 확인할 수 있습니다.

Kevin I-Kai Wang Zhihai Wang Xinxin Ding +3

0 Citations

0 Influential

31.0 Altmetric

Score: 155.0

#8 2603.16737v1 Mar 17, 2026 cs.CV

반사실적 예시 검색이 시각적 문맥 학습 능력을 향상시킨다 Retrieving Counterfactuals Improves Visual In-Context Learning

시각-언어 모델(VLM)은 다양한 다중 모드 추론 작업에서 뛰어난 성능을 보이지만, 미세한 시각적 속성을 분리하고 근본적인 인과 관계에 대해 추론하는 데 어려움을 겪는 경우가 많습니다. 문맥 학습(ICL)은 VLM이 새로운 작업에 적응할 수 있는 유망한 방법이지만, 그 효과는 데모 예제의 선택에 크게 의존합니다. 기존의 검색 기반 접근 방식은 일반적으로 수동적인 유사성 기반 검색에 의존하며, 이는 상관 관계가 있지만 인과 관계가 없는 예제를 선택하는 경향이 있어, 표면적인 연관성을 증폭시키고 모델의 견고성을 제한합니다. 본 논문에서는 CIRCLES(Composed Image Retrieval for Causal Learning Example Selection)라는 새로운 프레임워크를 소개합니다. CIRCLES는 대상 속성을 기반으로 하는 정교한 이미지 검색을 통해 반사실적인 예제를 능동적으로 검색하여 데모 세트를 구성합니다. CIRCLES는 반사실적인 예제를 포함함으로써, VLM이 속성과 결과 사이의 인과 관계에 대해 암묵적으로 추론할 수 있도록 하여, 단순한 상관 관계를 넘어 더욱 견고하고 의미 있는 추론을 가능하게 합니다. 4개의 다양한 데이터 세트에 대한 종합적인 실험 결과, CIRCLES는 다양한 아키텍처에서 기존 방법보다 일관되게 우수한 성능을 보이며, 특히 소규모 모델에서 두드러진 성능 향상을 보였습니다. 또한, CIRCLES는 더욱 다양하고 인과적으로 유용한 예제를 검색하며, 모델이 문맥 내 데모를 활용하여 추론 능력을 향상시키는 방법에 대한 질적인 통찰력을 제공합니다. 저희의 코드는 https://github.com/gzxiong/CIRCLES 에서 확인할 수 있습니다.

Kevin I-Kai Wang Guangzhi Xiong Sanchit Sinha +1

0 Citations

0 Influential

30.5 Altmetric

Score: 152.5

#9 2603.15185v1 Mar 16, 2026 cs.RO

종단 간(end-to-end) 자율 주행 시스템에서 확장 가능하고 견고한 학습을 위해 중요한 요소는 무엇인가? What Matters for Scalable and Robust Learning in End-to-End Driving Planners?

종단 간 자율 주행은 상호 작용하는 환경에서 견고한 행동을 학습하고 데이터 양에 따라 확장될 수 있는 잠재력을 가지고 있어 많은 관심을 받고 있습니다. 일반적인 아키텍처는 종종 인식 및 계획 모듈을 분리하고, 새의 눈(bird's eye view) 특징 격자와 같은 잠재적 표현을 통해 연결하여 종단 간 미분 가능성을 유지합니다. 이러한 패러다임은 주로 개방 루프(open-loop) 데이터 세트에서 발전했으며, 평가는 주행 성능뿐만 아니라 중간 인식 작업에 초점을 맞춥니다. 불행히도, 개방 루프 환경에서 뛰어난 성능을 보이는 아키텍처는 종종 견고한 폐쇄 루프(closed-loop) 주행의 확장 가능한 학습으로 이어지지 못합니다. 본 논문에서는 일반적인 아키텍처 패턴이 폐쇄 루프 성능에 미치는 영향을 체계적으로 재검토합니다. (1) 고해상도 인식 표현, (2) 분리된 경로 표현, (3) 생성적 계획이 이에 해당합니다. 중요한 점은, 본 연구에서는 이러한 패턴의 결합된 영향력을 평가하여 예상치 못한 제한 사항과 아직 탐구되지 않은 시너지 효과를 밝혀냈습니다. 이러한 통찰력을 바탕으로, 본 논문에서는 경량화되고 매우 확장 가능한 새로운 종단 간 자율 주행 아키텍처인 BevAD를 소개합니다. BevAD는 Bench2Drive 벤치마크에서 72.7%의 성공률을 달성했으며, 순수 모방 학습을 통해 강력한 데이터 확장성을 보여줍니다. 본 연구의 코드 및 모델은 다음 링크에서 공개적으로 이용할 수 있습니다: https://dmholtz.github.io/bevad/

Famous Author B. Schiele D. Holtz Niklas Hanselmann +2

0 Citations

0 Influential

30.0 Altmetric

Score: 150.0

#10 2603.12091v1 Mar 12, 2026 cs.LG

피드백 메모리를 활용한 자원 효율적인 반복 LLM 기반 신경망 구조 탐색 Resource-Efficient Iterative LLM-Based NAS with Feedback Memory

신경망 구조 탐색(NAS)은 네트워크 설계를 자동화하지만, 기존 방법은 상당한 계산 자원을 필요로 합니다. 본 연구에서는 대규모 언어 모델(LLM)을 활용하여 반복적으로 컨볼루션 신경망 아키텍처를 생성, 평가 및 개선하는 폐쇄 루프 파이프라인을 제안합니다. 이는 단일 소비자용 GPU에서 LLM 미세 조정 없이 이미지 분류 작업을 수행합니다. 핵심적인 접근 방식은 마르코프 체인에서 영감을 받은 과거 피드백 메모리입니다. $K{=}5$의 최근 개선 시도들을 포함하는 슬라이딩 윈도우를 사용하여 컨텍스트 크기를 일정하게 유지하면서 반복 학습에 필요한 충분한 정보를 제공합니다. 기존의 LLM 최적화 방법과는 달리, 실패 경로를 버리는 대신, 각 기록은 식별된 문제, 제안된 수정 사항 및 결과와 같은 구조화된 진단 트리플로 구성되어 코드 실행 실패를 중요한 학습 신호로 간주합니다. 이중 LLM 전문화는 각 호출 시의 인지 부담을 줄입니다. 코드 생성기는 실행 가능한 PyTorch 아키텍처를 생성하고, 프롬프트 개선기는 진단 추론을 수행합니다. LLM과 아키텍처 훈련 모두 제한된 VRAM을 공유하므로, 검색 과정은 암묵적으로 엣지 배포에 적합한 작고 하드웨어 효율적인 모델을 선호합니다. 본 연구에서는 최대 2000번의 반복 동안 제약 없는 개방형 코드 공간에서 세 가지 고정된 명령 튜닝 LLM(${ extless}7$B 파라미터)을 평가했습니다. CIFAR-10, CIFAR-100 및 ImageNette 데이터셋에 대한 단일 에폭의 프록시 정확도를 사용하여 빠른 순위 정보를 얻었습니다. CIFAR-10 데이터셋에서 DeepSeek-Coder-6.7B 모델은 정확도가 28.2%에서 69.2%로 향상되었고, Qwen2.5-7B 모델은 50.0%에서 71.5%로, GLM-5 모델은 43.2%에서 62.0%로 향상되었습니다. 전체 2000번의 반복 검색은 단일 RTX~4090 GPU에서 약 18시간 내에 완료되었으며, 이는 클라우드 인프라 없이 LLM 기반 NAS를 위한 저렴하고 재현 가능하며 하드웨어 인식적인 패러다임을 제시합니다.

Famous Author R. Timofte Xiaojie Gu D. Ignatov

0 Citations

0 Influential

30.0 Altmetric

Score: 150.0