February 2026

Su
Mo
Tu
We
Th
Fr
Sa

Time Period

Summary

Total Papers
127

Trending Papers

Most popular papers from the last 1 week

Sort by
#1 2602.12173v1 Feb 12, 2026 cs.AI

SAM3-LiteText: 효율적인 비전-언어 분할을 위한 SAM3 텍스트 인코더의 해부학적 연구 SAM3-LiteText: An Anatomical Study of the SAM3 Text Encoder for Efficient Vision-Language Segmentation

SAM3와 같은 비전-언어 분할 모델은 유연한 프롬프트 기반 시각적 그라운딩을 가능하게 하지만, 원래 개방형 언어 이해를 위해 설계된 거대하고 범용적인 텍스트 인코더를 그대로 사용합니다. 실제로 분할 프롬프트는 짧고 구조적이며 의미적으로 제한적이어서, 텍스트 인코더 용량의 상당한 과잉 공급과 지속적인 계산 및 메모리 오버헤드를 초래합니다. 본 논문에서는 여러 벤치마크에 걸친 404,796개의 실제 프롬프트를 대상으로 비전-언어 분할에서의 텍스트 프롬프팅에 대한 대규모 해부학적 분석을 수행합니다. 분석 결과 심각한 중복성이 드러났습니다. 대부분의 컨텍스트 윈도우는 충분히 활용되지 않고, 어휘 사용은 매우 희소하며, 텍스트 임베딩은 고차원 표현임에도 불구하고 저차원 매니폴드 상에 존재합니다. 이러한 발견에 기반하여, 우리는 기존 SAM3 텍스트 인코더를 지식 증류(knowledge distillation)로 최적화된 컴팩트한 MobileCLIP 스튜던트 모델로 대체하는 경량 텍스트 인코딩 프레임워크인 SAM3-LiteText를 제안합니다. 이미지 및 비디오 분할 벤치마크에 대한 광범위한 실험 결과, SAM3-LiteText는 원래 모델과 대등한 분할 성능을 유지하면서도 텍스트 인코더 파라미터를 최대 88% 줄여 정적 메모리 점유율을 대폭 감소시키는 것으로 나타났습니다. 코드: https://github.com/SimonZeng7108/efficientsam3/tree/sam3_litetext

Chengxi Zeng Yuxuan Jiang Ge Gao +6
0 Citations
0 Influential
49.8 Altmetric
Score: 248.8
#2 2602.10090v1 Feb 10, 2026 cs.AI

에이전트 월드 모델: 에이전트 강화 학습을 위한 무한 합성 환경 Agent World Model: Infinity Synthetic Environments for Agentic Reinforcement Learning

최근 대규모 언어 모델(LLM)의 발전으로 자율 에이전트가 도구 및 환경과의 다중 턴 상호 작용이 필요한 복잡한 작업을 수행할 수 있게 되었습니다. 그러나 다양하고 신뢰할 수 있는 환경의 부족으로 인해 이러한 에이전트 훈련을 확장하는 데 한계가 있습니다. 본 논문에서는 완전한 합성 환경 생성 파이프라인인 에이전트 월드 모델(AWM)을 제안합니다. 이 파이프라인을 사용하여 일상적인 시나리오를 다루는 1,000개의 환경으로 확장하였으며, 여기서 에이전트는 풍부한 도구 세트(환경당 평균 35개)와 상호 작용하고 고품질의 관측 데이터를 얻을 수 있습니다. 특히, 이러한 환경은 코드 기반이며 데이터베이스로 뒷받침되므로, LLM으로 시뮬레이션된 환경보다 더 신뢰할 수 있고 일관된 상태 전이를 제공합니다. 또한, 실제 환경에서 궤적을 수집하는 것에 비해 더 효율적인 에이전트 상호 작용이 가능합니다. 이 리소스의 유효성을 입증하기 위해, 우리는 다중 턴 도구 사용 에이전트에 대한 대규모 강화 학습을 수행했습니다. 완전히 실행 가능한 환경과 접근 가능한 데이터베이스 상태 덕분에 신뢰할 수 있는 보상 함수를 설계할 수도 있습니다. 세 가지 벤치마크에 대한 실험 결과, 벤치마크별 환경이 아닌 합성 환경에서만 훈련해도 강력한 분포 외(out-of-distribution) 일반화 성능을 얻을 수 있음을 보여줍니다. 코드는 https://github.com/Snowflake-Labs/agent-world-model 에서 확인할 수 있습니다.

0 Citations
0 Influential
46.9 Altmetric
Score: 234.6
#3 2602.09007v1 Feb 09, 2026 cs.AI

GEBench: GUI 환경으로서의 이미지 생성 모델 벤치마킹 GEBench: Benchmarking Image Generation Models as GUI Environments

최근 이미지 생성 모델의 발전으로 사용자 지시에 기반하여 미래의 그래픽 사용자 인터페이스(GUI) 상태를 예측하는 것이 가능해졌습니다. 그러나 기존 벤치마크들은 주로 일반 도메인의 시각적 충실도에 초점을 맞추고 있어, GUI 특화 문맥에서의 상태 전이와 시간적 일관성에 대한 평가는 부족한 실정입니다. 이러한 문제를 해결하기 위해, 우리는 GUI 생성에서의 동적 상호작용과 시간적 일관성을 평가하기 위한 포괄적인 벤치마크인 GEBench를 소개합니다. GEBench는 5가지 작업 범주에 걸쳐 엄선된 700개의 샘플로 구성되어 있으며, 실제 및 가상 시나리오에서의 단일 단계 상호작용과 다중 단계 궤적, 그리고 그라운딩 포인트 위치 추정을 모두 포함합니다. 체계적인 평가를 지원하기 위해, 목표 달성도, 상호작용 논리, 콘텐츠 일관성, UI 개연성, 시각적 품질을 평가하는 새로운 5차원 지표인 GE-Score를 제안합니다. 최신 모델들에 대한 광범위한 평가 결과, 단일 단계 전이에서는 우수한 성능을 보이지만 더 긴 상호작용 시퀀스에 걸쳐 시간적 일관성과 공간적 그라운딩을 유지하는 데에는 상당한 어려움을 겪는 것으로 나타났습니다. 우리의 연구 결과는 아이콘 해석, 텍스트 렌더링, 위치 추정 정밀도를 주요 병목 현상으로 지목합니다. 본 연구는 체계적인 평가를 위한 기반을 제공하며, 고충실도 생성형 GUI 환경 구축을 향한 향후 연구의 유망한 방향을 제시합니다. 코드는 https://github.com/stepfun-ai/GEBench 에서 확인할 수 있습니다.

0 Citations
0 Influential
42.2 Altmetric
Score: 210.9
#4 2602.12056v1 Feb 12, 2026 cs.AI

LawThinker: 동적 환경에서의 심층 연구 법률 에이전트 LawThinker: A Deep Research Legal Agent in Dynamic Environments

법률적 추론은 정확한 결과뿐만 아니라 절차적으로 부합하는 추론 과정도 필요로 한다. 그러나 기존 방법론들은 중간 추론 단계를 검증하는 메커니즘이 부족하여, 적용 불가능한 법령 인용과 같은 오류가 감지되지 않은 채 추론 사슬 전체로 전파되는 문제가 있다. 이를 해결하기 위해, 본 논문에서는 동적 사법 환경에 맞춰 '탐색-검증-기억(Explore-Verify-Memorize)' 전략을 채택한 자율 법률 연구 에이전트인 LawThinker를 제안한다. 핵심 아이디어는 모든 지식 탐색 단계 직후에 검증 과정을 필수적인 원자적(atomic) 연산으로 수행하는 것이다. DeepVerifier 모듈은 각 검색 결과를 지식의 정확성, 사실과 법률의 관련성, 절차적 준수성이라는 세 가지 차원에서 검사하며, 메모리 모듈을 통해 긴 호흡의 과제(long-horizon tasks)에서도 라운드 간 지식 재사용을 지원한다. 동적 벤치마크인 J1-EVAL에서의 실험 결과, LawThinker는 직접 추론 방식 대비 24%, 워크플로우 기반 방식 대비 11% 향상된 성능을 달성했으며, 특히 과정 중심 지표에서 두드러진 개선을 보였다. 또한 세 가지 정적 벤치마크에 대한 평가를 통해 모델의 일반화 능력을 추가로 확인하였다. 코드는 https://github.com/yxy-919/LawThinker-agent 에서 확인할 수 있다.

0 Citations
0 Influential
36.5 Altmetric
Korean
Score: 182.3 View Report
#5 2602.10063v1 Feb 10, 2026 cs.AI

Chain of Mindset: 적응형 인지 모드를 활용한 추론 Chain of Mindset: Reasoning with Adaptive Cognitive Modes

인간의 문제 해결은 결코 단일한 사고방식(mindset), 즉 뚜렷한 인지 처리 모드의 반복이 아니다. 특정 작업을 수행할 때, 우리는 단일 사고방식에 의존하지 않고 대신 하나의 해결 과정 내에서 여러 사고방식을 통합한다. 그러나 기존의 LLM 추론 방법들은 일반적인 함정에 빠져 있다. 즉, 동일한 문제 해결의 서로 다른 단계가 근본적으로 다른 사고방식을 필요로 한다는 점을 간과한 채, 모든 단계에 동일하고 고정된 사고방식을 적용하는 것이다. 이러한 단일 사고방식 가정은 모델이 다음 단계의 지능 수준에 도달하는 것을 방해한다. 이러한 한계를 해결하기 위해, 본 논문에서는 단계별 적응형 사고방식 조율을 가능하게 하는 훈련이 필요 없는 에이전트 프레임워크인 Chain of Mindset(CoM)을 제안한다. CoM은 추론을 공간적(Spatial), 수렴적(Convergent), 발산적(Divergent), 알고리즘적(Algorithmic)이라는 기능적으로 이질적인 네 가지 사고방식으로 분해한다. 메타 에이전트(Meta-Agent)는 전개되는 추론 상태에 기반하여 최적의 사고방식을 동적으로 선택하며, 양방향 컨텍스트 게이트(Context Gate)는 교차 모듈 정보 흐름을 필터링하여 효과성과 효율성을 유지한다. 수학, 코드 생성, 과학적 질의응답(QA), 공간 추론을 아우르는 6가지 난이도 높은 벤치마크 실험 결과, CoM은 Qwen3-VL-32B-Instruct와 Gemini-2.0-Flash에서 가장 강력한 베이스라인 대비 전체 정확도를 각각 4.96% 및 4.72% 향상시키며 최고 수준(SOTA)의 성능을 달성하였고, 동시에 추론 효율성의 균형을 맞춘 것으로 나타났다. 코드는 https://github.com/QuantaAlpha/chain-of-mindset 에서 이용 가능하다.

Tianyi Jiang Arctanx An Hengyi Feng +12
0 Citations
0 Influential
35.2 Altmetric
Score: 176.1
#6 2602.12113v1 Feb 12, 2026 cs.AI

불필요한 성찰 중단: 적응형 성찰 및 길이 조정 페널티를 이용한 효율적 추론을 위한 LRM 학습 Stop Unnecessary Reflection: Training LRMs for Efficient Reasoning with Adaptive Reflection and Length Coordinated Penalty

대규모 추론 모델(LRM)은 테스트 타임 스케일링을 적용하여 복잡한 추론 작업에서 놀라운 성능을 입증했습니다. 그러나 이러한 모델은 종종 반복적인 자문이나 순환 논리와 같은 과도한 성찰로 인해 지나치게 긴 사고 사슬(chain-of-thought)을 생성하며, 이는 특히 소형 모델에서 정확도 향상 없이 높은 토큰 소비, 막대한 계산 비용, 지연 시간 증가를 초래합니다. 우리의 관찰에 따르면 문제의 복잡성이 증가할수록 과도하고 불필요한 성찰이 더 많이 유발되며, 이는 결과적으로 정확도를 떨어뜨리고 토큰 오버헤드를 증가시킵니다. 이러한 문제를 해결하기 위해 우리는 추론 효율성과 해결 정확도 간의 균형을 동적으로 맞추도록 설계된 새로운 강화 학습 프레임워크인 적응형 성찰 및 길이 조정 페널티(ARLCP)를 제안합니다. ARLCP는 두 가지 핵심 혁신을 도입합니다: (1) 필수적인 추론은 보존하면서 불필요한 성찰 단계를 적응적으로 줄이는 성찰 페널티, (2) 문제의 추정된 복잡도에 맞춰 조정된 길이 페널티입니다. 이러한 페널티들을 조정함으로써 ARLCP는 모델이 더 간결하고 효과적인 추론 경로를 생성하도록 유도합니다. 우리는 DeepSeek-R1-Distill-Qwen-1.5B 및 DeepSeek-R1-Distill-Qwen-7B 모델을 사용하여 5가지 수학적 추론 벤치마크에서 제안한 방법을 평가했습니다. 실험 결과, ARLCP는 기존 접근 방식에 비해 우수한 효율성-정확도 트레이드오프를 달성하는 것으로 나타났습니다. 1.5B 모델의 경우, 평균 응답 길이를 53.1% 줄이면서 동시에 정확도를 5.8% 향상시켰습니다. 7B 모델의 경우, 길이를 35.0% 줄이면서 2.7%의 정확도 향상을 달성했습니다. 코드는 https://github.com/ZeweiYu1/ARLCP 에 공개되어 있습니다.

0 Citations
0 Influential
31.5 Altmetric
Score: 157.3
#7 2602.11609v1 Feb 12, 2026 cs.AI

scPilot: 자동화된 단일 세포 분석 및 발견을 위한 대규모 언어 모델 추론 scPilot: Large Language Model Reasoning Toward Automated Single-Cell Analysis and Discovery

우리는 오믹스 네이티브 추론(omics-native reasoning)을 실현하는 최초의 체계적 프레임워크인 scPilot을 소개한다. 이 프레임워크에서 대규모 언어 모델(LLM)은 단일 세포 RNA-seq 데이터와 온디맨드 생물정보학 도구를 직접 검토하며 자연어로 대화를 수행한다. scPilot은 세포 유형 주석(annotation), 발달 궤적 재구성, 전사 인자 표적화와 같은 핵심 단일 세포 분석 작업을 모델이 해결하고, 근거를 제시하며, 필요시 새로운 증거를 통해 수정해야 하는 단계별 추론 문제로 변환한다. 진척 상황을 측정하기 위해, 다양한 LLM에 대한 scPilot의 오믹스 네이티브 추론 능력을 충실히 평가할 수 있도록 전문가가 엄선한 9개의 데이터셋과 평가 도구로 구성된 scBench를 공개한다. o1 모델을 사용한 실험 결과, 반복적인 오믹스 네이티브 추론은 원샷(one-shot) 프롬프팅 대비 세포 유형 주석의 평균 정확도를 11% 향상시켰으며, Gemini-2.5-Pro는 궤적 그래프 편집 거리(trajectory graph-edit distance)를 30% 감소시켰다. 동시에 마커 유전자의 모호성과 조절 논리를 설명하는 투명한 추론 과정을 생성하였다. scPilot은 LLM을 원시(raw) 오믹스 데이터에 기반하게 함으로써, 검증 가능하고 해석 가능하며 진단적으로 유의미한 단일 세포 분석을 가능케 한다. 코드, 데이터 및 패키지는 https://github.com/maitrix-org/scPilot 에서 확인할 수 있다.

1 Citations
0 Influential
29.9 Altmetric
Score: 150.7
#8 2602.12268v1 Feb 12, 2026 cs.AI

CM2: 다중 턴 및 다중 단계 에이전트 도구 사용을 위한 체크리스트 보상 기반 강화학습 CM2: Reinforcement Learning with Checklist Rewards for Multi-Turn and Multi-Step Agentic Tool Use

AI 에이전트는 다중 턴 사용자 상호작용을 추론하고 외부 도구를 호출함으로써 실제 작업을 해결하는 데 점점 더 많이 사용되고 있습니다. 그러나 이러한 설정에 강화학습을 적용하는 것은 여전히 어렵습니다. 현실적인 목표에는 검증 가능한 보상이 부족하고 개방형 행동이 강조되는 경우가 많으며, 다중 턴 및 다중 단계 에이전트 도구 사용을 위한 RL은 아직 연구가 미흡합니다. 또한, 실행 가능한 도구 환경을 구축하고 유지 관리하는 데 비용이 많이 들어 확장성과 적용 범위가 제한됩니다. 우리는 검증 가능한 결과 보상을 체크리스트 보상으로 대체하는 RL 프레임워크인 CM2를 제안합니다. CM2는 각 턴의 의도된 행동을 명시적 근거와 구조화된 메타데이터를 포함한 세밀한 이진 기준으로 분해하여, 개방형 판단을 더 안정적인 분류 방식의 결정으로 전환합니다. 안정성과 정보성 간의 균형을 맞추기 위해, 본 방법론은 희소 보상 할당과 밀집 평가 기준 전략을 채택합니다. 훈련은 확장 가능한 LLM 시뮬레이션 도구 환경에서 수행되므로, 대규모 도구 세트에 대한 과도한 엔지니어링을 피할 수 있습니다. 실험 결과, CM2는 지도 미세 조정(SFT)보다 일관되게 성능이 향상되는 것으로 나타났습니다. 8B 기본 모델에서 시작하여 8천 개의 예제로 구성된 RL 데이터셋으로 훈련한 결과, CM2는 SFT 대조군 대비 tau^-Bench에서 8점, BFCL-V4에서 10점, ToolSandbox에서 12점 더 높은 성능을 보였습니다. 이 결과는 평가 모델을 포함하여 유사한 크기의 오픈 소스 기준 모델과 대등하거나 더 뛰어난 성능을 보여줍니다. 따라서 CM2는 검증 가능한 보상에 의존하지 않고 다중 턴, 다중 단계 도구 사용 에이전트를 최적화할 수 있는 확장 가능한 방안을 제공합니다. 오픈 소스 커뮤니티에서 제공한 코드는 다음 링크에서 확인할 수 있습니다: https://github.com/namezhenzhang/CM2-RLCR-Tool-Agent.

0 Citations
0 Influential
29.9 Altmetric
Score: 149.7
#9 2602.11103v1 Feb 11, 2026 cs.AI

GameDevBench: 게임 개발을 통한 에이전트 능력 평가 GameDevBench: Evaluating Agentic Capabilities Through Game Development

코딩 에이전트의 빠른 발전에도 불구하고, 이에 상응하는 멀티모달 모델의 발전은 뒤처져 있습니다. 주요 과제 중 하나는 소프트웨어 개발의 복잡성과 심층적인 멀티모달 이해의 필요성을 결합한 평가 테스트베드가 부족하다는 것입니다. 게임 개발은 에이전트가 방대한 코드베이스를 탐색하는 동시에 시각적 게임 장면 내에서 셰이더, 스프라이트, 애니메이션과 같은 본질적으로 멀티모달인 자산들을 조작해야 하므로 이러한 테스트베드를 제공합니다. 우리는 게임 개발 작업에서 에이전트를 평가하기 위한 최초의 벤치마크인 GameDevBench를 제안합니다. GameDevBench는 웹 및 비디오 튜토리얼에서 파생된 132개의 작업으로 구성됩니다. 이 작업들은 상당한 수준의 멀티모달 이해를 요구하며 복잡합니다. 평균 솔루션은 기존 소프트웨어 개발 벤치마크에 비해 3배 이상의 코드 라인 수와 파일 변경을 필요로 합니다. 에이전트들은 여전히 게임 개발에 어려움을 겪고 있으며, 최고의 에이전트조차 54.5%의 작업만 해결했습니다. 우리는 인지된 작업 난이도와 멀티모달 복잡성 사이에 강한 상관관계가 있음을 확인했으며, 성공률은 게임플레이 중심 작업의 46.9%에서 2D 그래픽 작업의 31.6%로 떨어졌습니다. 멀티모달 역량을 향상시키기 위해, 우리는 에이전트를 위한 두 가지 간단한 이미지 및 비디오 기반 피드백 메커니즘을 도입합니다. 이러한 방법들은 단순함에도 불구하고 성능을 일관되게 향상시켰으며, 가장 큰 변화는 Claude Sonnet 4.5의 성능이 33.3%에서 47.7%로 증가한 것입니다. 우리는 에이전트 게임 개발에 대한 추가 연구를 지원하기 위해 GameDevBench를 공개합니다.

0 Citations
0 Influential
25.5 Altmetric
Score: 127.5
#10 2602.11918v1 Feb 12, 2026 cs.AI

MEME: 금융 시장의 진화적 양상 모델링 MEME: Modeling the Evolutionary Modes of Financial Markets

LLM은 방대한 비정형 데이터를 처리하여 인간과 유사한 분석 워크플로우를 모방함으로써 퀀트 금융 분야에서 상당한 잠재력을 입증했습니다. 그러나 현재의 LLM 기반 방법론들은 주로 개별 주식 예측에 초점을 맞춘 자산 중심(Asset-Centric) 패러다임이나 포트폴리오 배분을 위한 시장 중심(Market-Centric) 접근 방식을 따르고 있어, 시장의 움직임을 주도하는 기저 논리에 대해서는 대체로 무관심한 경향이 있습니다. 본 논문에서는 금융 시장을 '사고의 양상(Modes of Thought)'이라 불리는 경쟁적인 투자 내러티브들의 역동적이고 진화적인 생태계로 모델링하는 논리 지향적(Logic-Oriented) 관점을 제안합니다. 이러한 관점을 구현하기 위해, 진화하는 논리의 관점을 통해 시장 역학을 재구성하도록 설계된 MEME(Modeling the Evolutionary Modes of Financial Markets)를 소개합니다. MEME은 멀티 에이전트 추출 모듈을 사용하여 노이즈가 많은 데이터를 고충실도의 '투자 논거(Investment Arguments)'로 변환하고, 가우시안 혼합 모델링(GMM)을 활용하여 의미 공간 내의 잠재적인 합의(consensus)를 발굴합니다. 또한 다양한 시장 상황 간의 의미적 표류(semantic drift)를 모델링하기 위해, 이러한 모드들의 수명 주기와 과거 수익성을 추적하는 시계열적 평가 및 정렬 메커니즘을 구현합니다. MEME은 일시적인 이상 현상보다 지속적인 시장의 지혜를 우선시함으로써, 견고한 추론에 기반하여 포트폴리오가 구성되도록 보장합니다. 2023년부터 2025년까지의 이질적인 세 가지 중국 주식 풀(pool)을 대상으로 한 광범위한 실험 결과, MEME이 7가지 최신(SOTA) 기준 모델들보다 일관되게 우수한 성능을 보임을 입증했습니다. 추가적인 소거 연구(ablation studies), 민감도 분석, 수명 주기 사례 연구 및 비용 분석을 통해 금융 시장의 진화하는 합의를 식별하고 이에 적응하는 MEME의 능력을 검증했습니다. 구현 코드는 https://github.com/gta0804/MEME 에서 확인할 수 있습니다.

0 Citations
0 Influential
25.5 Altmetric
Score: 127.3