January 2026
Time Period
Summary
Trending Papers
Most popular papers from the last 1 week
BayesianVLA: 잠재 행동 쿼리를 이용한 시각-언어-행동 모델의 베이지안 분해 BayesianVLA: Bayesian Decomposition of Vision Language Action Models via Latent Action Queries
시각-언어-행동(VLA) 모델은 로봇 조작 분야에서 유망한 가능성을 보여주었으나, 새로운 지시 사항이나 복잡한 다중 작업 시나리오에 일반화하는 데 있어 종종 어려움을 겪습니다. 우리는 목표 주도형 데이터 수집이 데이터셋 편향을 유발하는 현재의 훈련 패러다임에서 중요한 문제점을 파악했습니다. 이러한 데이터셋에서는 시각적 관찰만으로도 언어 지시 사항을 매우 쉽게 예측할 수 있어, 지시 사항과 행동 간의 조건부 상호 정보가 소실되는 현상이 발생하며, 우리는 이를 '정보 붕괴(Information Collapse)'라고 명명합니다. 결과적으로 모델은 언어 제약 조건을 무시하는 시각 전용 정책으로 퇴화하여, 분포 외(OOD) 설정에서 실패하게 됩니다. 이 문제를 해결하기 위해, 우리는 베이지안 분해를 통해 지시 이행을 강화하는 새로운 프레임워크인 BayesianVLA를 제안합니다. 학습 가능한 '잠재 행동 쿼리(Latent Action Queries)'를 도입하여 시각 전용 사전 확률 $p(a \mid v)$와 언어 조건부 사후 확률 $\pi(a \mid v, \ell)$을 모두 추정하는 이중 분기 아키텍처를 구축합니다. 그런 다음 행동과 지시 사항 간의 조건부 점별 상호 정보(PMI)를 최대화하도록 정책을 최적화합니다. 이 목적 함수는 시각적 지름길(vision shortcut)을 효과적으로 억제하고, 언어 명령을 명시적으로 설명하는 행동에 보상을 제공합니다. BayesianVLA는 새로운 데이터를 필요로 하지 않으면서도 일반화 성능을 크게 향상시킵니다. SimplerEnv와 RoboCasa에서의 광범위한 실험을 통해 까다로운 OOD SimplerEnv 벤치마크에서 11.3%의 성능 향상을 포함한 상당한 성과를 입증하였으며, 이는 언어를 행동에 견고하게 그라운딩(grounding)하는 본 연구의 접근 방식이 유효함을 확인시켜 줍니다.
지식 그래프는 암묵적 보상 모델이다: 경로 유도 신호를 통한 구성적 추론 Knowledge Graphs are Implicit Reward Models: Path-Derived Signals Enable Compositional Reasoning
대규모 언어 모델은 수학이나 프로그래밍과 같은 구조적 추론 영역에서 전문가에 가까운 성능을 달성했지만, 특수 과학 분야에서 구성적 멀티 홉(multi-hop) 추론을 수행하는 능력은 여전히 제한적이다. 우리는 모델이 공리적 도메인 사실에 기반을 두고 이를 조합하여 복잡하고 새로운 과제를 해결하는 상향식 학습 패러다임을 제안한다. 이를 위해, 우리는 지식 그래프가 암묵적 보상 모델로 작용하는 지도 미세 조정과 강화 학습(RL)의 결합에 기반한 사후 학습 파이프라인을 제시한다. 지식 그래프 경로에서 새로운 보상 신호를 유도함으로써, 우리는 RL 과정에서 모델이 최종 답변만 최적화하는 대신 중간 공리들을 구성하도록 장려하는 검증 가능하고 확장 가능하며 근거 있는 지도를 제공한다. 우리는 의료 도메인에서 이 접근 방식을 검증하였으며, 14B 모델을 짧은 홉 추론 경로(1-3 홉)로 훈련시키고 복잡한 멀티 홉 질의(4-5 홉)에 대한 제로샷 일반화 성능을 평가했다. 실험 결과, 경로 유도 보상은 "구성적 가교" 역할을 하여 우리 모델이 가장 어려운 추론 과제에서 훨씬 더 큰 모델 및 GPT-5.2, Gemini 3 Pro와 같은 최첨단 시스템을 크게 능가할 수 있음을 보여주었다. 또한, 우리는 선택지 섞기(option-shuffling) 스트레스 테스트와 같은 적대적 변형에 대해서도 우리 접근 방식이 견고함을 입증했다. 이 연구는 추론 과정을 구조화된 지식에 기반하게 하는 것이 지능적 추론을 향한 확장 가능하고 효율적인 길임을 시사한다.
코드화된 인간 전문가 도메인 지식으로 LLM을 증강하여 AI 에이전트를 구축하는 방법: 소프트웨어 엔지니어링 프레임워크 How to Build AI Agents by Augmenting LLMs with Codified Human Expert Domain Knowledge? A Software Engineering Framework
중요한 도메인 지식은 일반적으로 소수의 전문가에게 집중되어 있어, 확장성과 의사 결정에 있어 조직적인 병목 현상을 초래합니다. 비전문가는 효과적인 시각화를 생성하는 데 어려움을 겪으며, 이는 최적화되지 않은 통찰력 도출로 이어지고 전문가의 시간을 뺏게 만듭니다. 본 논문은 산업 사례 연구를 통해 인간의 도메인 지식을 포착하여 AI 에이전트 시스템에 내재화하는 방법을 조사합니다. 우리는 시뮬레이션 데이터 시각화를 위한 AI 에이전트 엔지니어링 과정에서 인간 도메인 지식을 포착하는 소프트웨어 엔지니어링 프레임워크를 제안합니다. 이 프레임워크는 대규모 언어 모델(LLM)을 요청 분류기, 코드 생성을 위한 검색 증강 생성(RAG) 시스템, 코드화된 전문가 규칙, 그리고 시각화 디자인 원칙으로 증강하여, 자율적, 반응적, 주도적, 사회적 행동을 보여주는 하나의 통합된 에이전트로 구현합니다. 여러 엔지니어링 도메인에 걸친 5가지 시나리오와 12명의 평가자를 대상으로 한 평가 결과, 기준 모델의 저조한 성능 대비 제안된 에이전트는 모든 경우에서 전문가 수준의 평가를 받으며 출력 품질이 206% 향상되었음을 입증하였고, 더 낮은 편차로 우수한 코드 품질을 유지하였습니다. 본 연구의 기여점은 시각화 생성을 위한 자동화된 에이전트 기반 시스템과, 인간의 도메인 지식을 체계적으로 포착하고 암묵적인 전문가 지식을 코드화하여 AI 에이전트에 적용하는 검증된 프레임워크를 제시함으로써, 전문 분야에서 비전문가도 전문가 수준의 성과를 달성할 수 있음을 입증한 것입니다.
개선된 네트워크 임베딩과 심층 강화 학습을 이용한 유한 시간 내 차량 경로 탐색 Vehicle Routing with Finite Time Horizon using Deep Reinforcement Learning with Improved Network Embedding
본 논문에서는 유한 시간 호라이즌(finite time horizon)을 고려한 차량 경로 문제를 연구한다. 이 경로 문제의 목표는 유한한 시간 내에 서비스되는 고객 요청의 수를 최대화하는 것이다. 우리는 지역 노드 임베딩 벡터와 문맥을 인식하는 전역 그래프 표현을 생성하는 새로운 경로 네트워크 임베딩 모듈을 제안한다. 제안된 차량 경로 문제를 위한 마르코프 결정 과정은 노드 특징, 네트워크 인접 행렬, 그리고 엣지 특징을 상태 공간의 구성 요소로 포함한다. 우리는 임베딩 모듈에 적절한 경로 탐색 문맥을 제공하기 위해 남은 시간을 네트워크 임베딩 모듈에 통합한다. 유한 시간 호라이즌 차량 경로 문제를 해결하기 위해, 우리는 이 임베딩 모듈을 정책 경사(policy gradient) 기반의 심층 강화 학습 프레임워크와 통합한다. 우리는 실제 도로 네트워크와 인공적으로 생성된 유클리드 네트워크에서 제안된 경로 탐색 방법을 훈련하고 검증했다. 실험 결과에 따르면, 제안된 방법은 기존 경로 탐색 방법보다 더 높은 고객 서비스 비율을 달성하는 것으로 나타났다. 또한, 제안된 방법의 해 탐색 시간은 기존 방법들보다 현저히 짧다.
개연성의 함정: 결정론적 작업을 위한 확률론적 엔진의 사용 The Plausibility Trap: Using Probabilistic Engines for Deterministic Tasks
대규모 언어 모델(LLM)의 보편화는 사용자 편의성이 연산 효율성보다 우선시되는 패러다임 전환을 주도하고 있다. 본 논문은 인공지능(AI) 모델에 접근 가능한 개인이 광학 문자 인식(OCR)이나 기본적인 검증과 같은 단순한 결정론적 작업에 고비용의 확률론적 엔진을 사용하여 상당한 자원 낭비를 초래하는 현상을 '개연성의 함정(Plausibility Trap)'으로 정의한다. OCR 및 팩트 체크에 대한 마이크로 벤치마크와 사례 연구를 통해 우리는 약 6.5배의 지연 시간 페널티를 보여주는 '효율성 비용(efficiency tax)'과 알고리즘 추종(algorithmic sycophancy)의 위험성을 정량화한다. 이에 대응하기 위해 우리는 개발자가 생성형 AI를 언제 사용해야 하는지, 그리고 결정적으로 언제 피해야 하는지를 판단하는 데 도움을 주는 프레임워크인 '도구 선택 엔지니어링(Tool Selection Engineering)'과 '결정론적-확률론적 의사결정 매트릭스'를 소개한다. 마지막으로 우리는 진정한 디지털 리터러시는 생성형 AI의 사용법을 아는 것뿐만 아니라, 언제 사용하지 말아야 하는지를 아는 것에 달려 있음을 강조하며 커리큘럼의 전환을 주장한다.
기반에서 부상하기: 실제 호출을 가상 궤적으로 파생시켜 도구 사용 에이전트의 의도 일탈 해결 Emerging from Ground: Addressing Intent Deviation in Tool-Using Agents via Deriving Real Calls into Virtual Trajectories
대규모 언어 모델(LLM)은 실제 애플리케이션을 위한 도구 사용 에이전트를 발전시켰지만, 이러한 에이전트는 종종 예상치 못한 행동이나 결과를 초래합니다. 명백한 실패 외에도, '의도 일탈(intent deviation)'이라는 미묘한 문제는 신뢰할 수 있는 평가와 성능 향상을 심각하게 저해합니다. 기존의 사후 학습(post-training) 방법들은 일반적으로 실제 시스템 샘플이나 LLM이 시뮬레이션한 가상 데이터를 활용합니다. 그러나 전자는 수작업으로 작성된 사용자 요청에 의존하기 때문에 비용이 많이 들고, 후자는 실제 환경의 도구와 분포 변화(distribution shift) 문제를 겪습니다. 또한 두 방법 모두 의도 일탈 시나리오에 특화된 부정 샘플(negative samples)이 부족하여 선호도 학습에 효과적인 지침을 제공하지 못합니다. 본 연구에서는 의도 일탈을 완화하기 위해 설계된 'Real-to-Virtual' 방법인 RISE를 소개합니다. RISE는 검증된 도구 프리미티브(primitives)를 기반으로 가상 궤적을 합성하고, 핵심 매개변수의 변이를 통해 다양한 부정 샘플을 생성합니다. RISE는 합성 데이터를 사용하여 의도 정렬(intent alignment)을 위한 2단계 훈련을 통해 백본 LLM을 미세 조정합니다. 평가 결과, RISE로 합성된 데이터는 사용자 요구 사항, 실행 궤적 및 에이전트 응답을 포괄하는 8가지 지표에서 우수한 결과를 달성했습니다. 훈련과 통합되었을 때, RISE는 Acctask(작업 완료)에서 평균 35.28%, Accintent(의도 정렬)에서 23.27%의 성능 향상을 기록하며, 최신(SOTA) 기준 모델들을 각각 1.20~42.09% 및 1.17~54.93% 차이로 능가했습니다.
행동 이면의 이유: 에이전트 귀인을 통한 내부 동인 규명 The Why Behind the Action: Unveiling Internal Drivers via Agentic Attribution
거대 언어 모델(LLM) 기반 에이전트는 고객 서비스, 웹 탐색, 소프트웨어 엔지니어링과 같은 실제 애플리케이션에서 널리 사용되고 있습니다. 이러한 시스템이 더욱 자율화되고 대규모로 배포됨에 따라, 에이전트가 왜 특정 행동을 취하는지 이해하는 것은 책임성과 거버넌스 측면에서 점점 더 중요해지고 있습니다. 그러나 기존 연구는 주로 실패한 궤적에서 명시적인 오류를 국소화하는 '실패 귀인'에 집중하고 있어, 에이전트 행동 이면의 추론 과정을 설명하기에는 불충분합니다. 이러한 격차를 해소하기 위해, 본 연구는 작업 결과와 관계없이 에이전트 행동을 유발하는 내부 요인을 식별하도록 설계된 '일반적 에이전트 귀인'을 위한 새로운 프레임워크를 제안합니다. 제안하는 프레임워크는 에이전트 상호작용의 복잡성을 관리하기 위해 계층적으로 작동합니다. 구체적으로 '구성 요소 수준'에서는 시간적 우도 동역학을 사용하여 중요한 상호작용 단계를 식별하고, '문장 수준'에서는 섭동 기반 분석을 통해 위치를 정교화하여 특정 텍스트 증거를 분리해냅니다. 우리는 표준 도구 사용 및 기억 유발 편향과 같은 미묘한 신뢰성 위험을 포함한 다양한 에이전트 시나리오에서 프레임워크를 검증했습니다. 실험 결과는 제안된 프레임워크가 에이전트 행동 이면의 핵심적인 과거 사건과 문장을 신뢰성 있게 포착하여, 더 안전하고 책임 있는 에이전트 시스템을 향한 중요한 발판을 마련함을 보여줍니다.
책임 공백: 확장된 에이전트 시스템에서의 조직적 실패 The Responsibility Vacuum: Organizational Failure in Scaled Agent Systems
에이전트가 생성한 코드를 통합하는 현대의 CI/CD 파이프라인은 책임 귀속에 있어 구조적인 실패를 드러낸다. 결정은 형식적으로 올바른 승인 절차를 통해 실행되지만, 결정을 승인할 권한과 그 근거를 유의미하게 이해할 수 있는 인식론적 역량을 동시에 갖춘 주체는 존재하지 않는다. 우리는 이러한 상태를 '책임 공백(responsibility vacuum)'으로 정의한다. 이는 권한과 검증 역량이 일치하지 않아 결정은 발생하되 책임은 귀속될 수 없는 상태를 의미한다. 우리는 이것이 프로세스상의 일탈이나 기술적 결함이 아니라, 결정 생성 처리량이 인간의 제한된 검증 역량을 초과하는 배포 환경의 구조적 속성임을 밝힌다. 우리는 병렬적 에이전트 생성, CI 기반 검증, 개별화된 인간 승인 관문 등 표준 배포 가정 하에서의 확장 한계를 규명한다. 특정 처리량 임계값을 넘어서면 검증은 결정 기준으로서의 기능을 상실하고, 대리 신호에 기반한 의례적인 승인으로 대체된다. 이러한 체제에서는 개인화된 책임이 구조적으로 달성 불가능해진다. 나아가 우리는 자동화된 검증 커버리지의 확대가 인간의 역량을 회복시키지 못한 채 대리 신호의 밀도만을 높이는 'CI 증폭 역학'을 제시한다. 고정된 시간과 주의력 제약 하에서 이는 광의의 인지적 오프로딩을 가속화하며, 형식적 승인과 인식론적 이해 사이의 간극을 넓힌다. 따라서 추가적인 자동화는 책임 공백을 완화하기보다는 오히려 증폭시킨다. 결론적으로 조직이 결정의 경계를 명시적으로 재설계하거나 책임을 개별 결정에서 배치 또는 시스템 수준의 소유권으로 전환하지 않는 한, 책임 공백은 확장된 에이전트 배포 환경에서 보이지 않지만 지속적인 실패 양상으로 남을 것이다.
내재적인 것이 아닌 창발적인 것: 설명 가능한 AI에 대한 바라드적 독해 Emergent, not Immanent: A Baradian Reading of Explainable AI
설명 가능한 AI(XAI)는 종종 AI 모델의 내부 작동 원리를 드러내는 기술적 문제로 규정됩니다. 이러한 입장은 검토되지 않은 존재론적-인식론적 가정의 영향을 받는데, 즉 의미는 모델에 내재된 것으로 취급되고, 설명자는 시스템 외부에 위치하며, 인과 구조는 계산적 기법을 통해 복구 가능한 것으로 가정됩니다. 본 논문에서 우리는 바라드(Barad)의 행위적 실재론을 바탕으로 XAI에 대한 대안적 존재론적-인식론을 전개합니다. 우리는 해석이란 AI 모델, 인간, 맥락, 그리고 해석 장치 간의 상황지어진 얽힘에서 창발하는 물질적-담론적 수행임을 제안합니다. 이러한 입장을 발전시키기 위해 우리는 포괄적인 XAI 방법론 세트를 행위적 실재론을 통해 독해하여, 그중 다수를 뒷받침하는 가정과 한계를 드러냅니다. 마지막으로 우리는 이 프레임워크의 윤리적 차원을 명확히 하고, 사변적인 텍스트-음악 변환 인터페이스를 사례 연구로 활용하여 창발적 해석을 지원하는 XAI 인터페이스의 디자인 방향을 제안합니다.
전자상거래 추천을 위한 전이 인식 그래프 어텐션 네트워크 기반 다중 행동 순차 모델링 Multi-Behavior Sequential Modeling with Transition-Aware Graph Attention Network for E-Commerce Recommendation
전자상거래 플랫폼에서의 사용자 상호작용은 클릭, 즐겨찾기, 장바구니 담기, 구매와 같은 행동을 포함하여 본질적으로 다양합니다. 이러한 행동 간의 전이는 사용자-아이템 상호작용에 대한 귀중한 통찰력을 제공하며, 변화하는 선호도를 이해하는 데 핵심적인 신호 역할을 합니다. 이에 따라, 사용자 의도를 더 잘 파악하기 위해 다중 행동 데이터를 활용하는 것에 대한 관심이 높아지고 있습니다. 최근 연구들은 다중 행동 데이터의 순차 모델링을 탐구해 왔으며, 다수가 다항 시간 복잡도를 가진 트랜스포머(Transformer) 기반 아키텍처에 의존하고 있습니다. 이러한 접근 방식은 효과적이지만, 종종 높은 계산 비용을 유발하여 긴 사용자 시퀀스를 가진 대규모 산업 시스템에 적용하는 데 제한이 있습니다. 이러한 문제를 해결하기 위해, 우리는 다중 행동 전이를 모델링하기 위한 선형 복잡도 접근 방식인 전이 인식 그래프 어텐션 네트워크(TGA)를 제안합니다. 모든 행동 쌍을 동등하게 취급하는 기존의 트랜스포머와 달리, TGA는 (a) 아이템 수준 전이, (b) 카테고리 수준 전이, (c) 이웃 수준 전이의 세 가지 관점에서 유익한 전이를 식별하여 구조화된 희소 그래프를 구축합니다. 구조화된 그래프를 기반으로 구축된 TGA는 사용자-아이템 상호작용과 행동 전이 유형을 공동으로 모델링하는 전이 인식 그래프 어텐션 메커니즘을 채택하여, 계산 효율성을 유지하면서 순차적 패턴을 더 정확하게 포착할 수 있게 합니다. 실험 결과, TGA는 계산 비용을 크게 줄이면서도 모든 최신 모델보다 뛰어난 성능을 보이는 것으로 나타났습니다. 특히, TGA는 대규모 산업용 프로덕션 환경에 배포되어 주요 비즈니스 지표에서 인상적인 개선을 이끌어냈습니다.