March 2026

Su
Mo
Tu
We
Th
Fr
Sa

Time Period

Summary

Total Papers
521

Trending Papers

Most popular papers from the last 1 week

Sort by
#1 2603.05116v1 Mar 05, 2026 cs.LG

FedBCD: 연합 학습을 위한 통신 효율성을 높인 가속 블록 좌표 경사 하강법 FedBCD:Communication-Efficient Accelerated Block Coordinate Gradient Descent for Federated Learning

최근 연합 학습이 널리 연구되어 왔지만, 비전 트랜스포머와 같은 대규모 모델의 경우 여전히 각 통신 라운드마다 높은 오버헤드가 발생합니다. 이러한 통신 복잡성을 줄이기 위해, 우리는 통신 효율성을 높이는 새로운 연합 블록 좌표 경사 하강법(FedBCGD) 방법을 제안합니다. 제안된 방법은 모델 파라미터를 공유 블록을 포함한 여러 블록으로 나누고, 각 클라이언트가 특정 파라미터 블록을 업로드하도록 하여 통신 오버헤드를 크게 줄일 수 있습니다. 또한, 클라이언트 드리프트 제어 및 확률적 분산 감소 기능을 갖춘 가속된 FedBCGD 알고리즘(FedBCGD+)을 개발했습니다. 저희 연구가 대규모 딥 모델 학습을 위한 파라미터 블록 통신에 대한 최초의 연구 결과임을 밝힙니다. 제안된 알고리즘에 대한 수렴 분석도 제공합니다. 우리의 이론적 결과는 제안된 알고리즘의 통신 복잡성이 기존 방법보다 $1/N$만큼 낮으며, 수렴 속도가 훨씬 빠름을 보여줍니다. 실험 결과는 제안된 알고리즘이 최첨단 알고리즘보다 우수함을 나타냅니다. 코드: https://github.com/junkangLiu0/FedBCGD

35 Citations
2 Influential
56.9 Altmetric
Score: 323.3
#2 2603.05114v1 Mar 05, 2026 cs.CV

UniPAR: 보행자 속성 인식의 통합 프레임워크 UniPAR: A Unified Framework for Pedestrian Attribute Recognition

보행자 속성 인식은 영상 감시 시스템의 사람 검색 및 지능형 소매 분석과 같은 다양한 응용 분야에 필수적인 기반 기술입니다. 그러나 기존 연구는 종종 '데이터셋 당 하나의 모델'이라는 패러다임에 의해 제약되며, 다양한 도메인 간의 모달리티, 속성 정의, 환경 시나리오의 상당한 차이를 처리하는 데 어려움을 겪습니다. 이러한 문제점을 해결하기 위해, 우리는 보행자 속성 인식(PAR)을 위한 통합 트랜스포머 기반 프레임워크인 UniPAR를 제안합니다. UniPAR는 통합된 데이터 스케줄링 전략과 동적 분류 헤드를 통합하여, RGB 이미지, 비디오 시퀀스, 이벤트 스트림과 같은 다양한 모달리티의 데이터셋을 단일 모델로 동시에 처리할 수 있도록 합니다. 또한, 우리는 시각적 특징과 텍스트 기반 속성 쿼리를 후반 단계의 심층 융합 전략을 통해 명시적으로 정렬하는 혁신적인 단계별 융합 인코더를 도입했습니다. 널리 사용되는 벤치마크 데이터셋인 MSP60K, DukeMTMC, EventPAR에 대한 실험 결과는 UniPAR가 특수화된 최첨단 방법과 비교 가능한 성능을 달성함을 보여줍니다. 더욱이, 다중 데이터셋을 이용한 공동 훈련은 모델의 교차 도메인 일반화 능력을 향상시키고, 저조도 및 모션 블러와 같은 극한 환경에서의 인식 강건성을 크게 향상시킵니다. 본 논문의 소스 코드는 https://github.com/Event-AHU/OpenPAR 에서 공개될 예정입니다.

0 Citations
0 Influential
48.5 Altmetric
Score: 242.7
#3 2603.07039v1 Mar 07, 2026 cs.AI

4차원 시공간 임베딩을 활용한 자기 지도 학습 기반 다중 모드 세계 모델 Self-Supervised Multi-Modal World Model with 4D Space-Time Embedding

본 논문에서는 지구 전체 규모의 4차원 시공간 위치 인코더인 Earth4D를 포함하는 자기 지도 학습 기반 다중 모드 세계 모델인 DeepEarth를 소개합니다. Earth4D는 3차원 다중 해상도 해시 인코딩을 확장하여 시간 정보를 포함하며, 이를 통해 센티미터, 밀리초 단위의 정확도로 수백 년 동안 지구 전체를 효율적으로 모델링할 수 있습니다. 다중 모드 인코더(예: 시각-언어 모델)는 Earth4D 임베딩과 결합되어 마스킹된 재구성을 통해 학습됩니다. 우리는 Earth4D가 생태 예측 벤치마크에서 최첨단 성능을 달성하여 표현력을 입증했습니다. 학습 가능한 해시 프로빙을 사용하는 Earth4D는 훨씬 더 많은 데이터로 사전 훈련된 다중 모드 기반 모델보다 우수한 성능을 보입니다. 오픈 소스 코드에 액세스하고 모델을 다운로드하려면 다음 주소를 참조하십시오: https://github.com/legel/deepearth

0 Citations
0 Influential
46.0 Altmetric
Score: 229.9
#4 2603.04803v1 Mar 05, 2026 cs.CV

대조 학습 신호를 활용한 확산 모델 기반 재구성을 통해 균형 잡힌 시각적 표현 달성 Guiding Diffusion-based Reconstruction with Contrastive Signals for Balanced Visual Representation

대조 언어-이미지 사전 학습(CLIP)에서 시각 인코더의 제한적인 이해 능력은 하위 작업 성능의 주요 병목 현상으로 작용합니다. 이러한 능력에는 클래스 분리도를 나타내는 판별력(D-Ability)과 미세한 시각적 특징에 집중하는 세부 인식 능력(P-Ability)이 모두 포함됩니다. 최근 연구에서는 확산 모델을 사용하여 CLIP 시각 토큰에 기반하여 이미지 재구성을 조건화함으로써 표현력을 향상시키는 방법을 사용합니다. 그러나 이러한 방식은 판별력을 저하시켜 CLIP의 표현 능력 제한을 효과적으로 해결하지 못할 수 있다는 점을 주장합니다. 이러한 문제를 해결하기 위해, 우리는 확산 모델 기반 재구성에 대조 학습 신호를 통합하여 보다 포괄적인 시각적 표현을 추구합니다. 우리는 먼저 입력 이미지에 대한 대조 학습을 확산 과정에 통합하는 간단한 설계를 사용합니다. 그러나 실험 결과, 이러한 단순한 결합 방식은 기울기 충돌 문제를 야기하며 최적의 성능을 달성하지 못하는 것으로 나타났습니다. 이러한 문제를 해결하기 위해, 우리는 학습 목표를 통합하는 Diffusion Contrastive Reconstruction (DCR) 방법을 제안합니다. 핵심 아이디어는 원래 입력 이미지가 아닌, 각 재구성된 이미지에서 파생된 대조 신호를 확산 과정에 주입하는 것입니다. 우리의 이론적 분석에 따르면, DCR 손실 함수는 판별력과 세부 인식 능력을 동시에 최적화할 수 있습니다. 다양한 벤치마크 및 다중 모드 대규모 언어 모델을 사용한 광범위한 실험을 통해, 제안하는 방법의 효과를 검증했습니다. 코드 및 관련 자료는 다음 링크에서 확인할 수 있습니다: https://github.com/boyuh/DCR.

0 Citations
0 Influential
42.0 Altmetric
Score: 210.2
#5 2603.07138v1 Mar 07, 2026 cs.CL

대화에서의 감정 기록: 자연어를 통해 미묘하고 복잡한 감정 상태를 포착하기 위한 벤치마크 Emotion Transcription in Conversation: A Benchmark for Capturing Subtle and Complex Emotional States through Natural Language

대화에서의 감정 인식(Emotion Recognition in Conversation, ERC)은 자연스러운 인간-기계 상호작용을 가능하게 하는 데 매우 중요합니다. 그러나 기존 방법은 주로 범주형 또는 차원형 감정 어노테이션을 사용하는데, 이는 복잡하고 미묘하거나 문화적으로 특정한 감정적 뉘앙스를 충분히 반영하지 못하는 경우가 많습니다. 이러한 한계를 극복하기 위해, 우리는 대화에서의 감정 기록(Emotion Transcription in Conversation, ETC)이라는 새로운 과제를 제안합니다. 이 과제는 대화 맥락 내에서 화자의 감정 상태를 정확하게 반영하는 자연어 설명을 생성하는 데 중점을 둡니다. ETC 과제를 해결하기 위해, 우리는 참가자들이 자신의 감정 상태를 자연어로 설명한 텍스트 기반 대화로 구성된 일본어 데이터셋을 구축했습니다. 이 데이터셋에는 각 기록에 대한 감정 범주 레이블도 포함되어 있어, 정량적 분석을 가능하게 하고 ERC에 적용할 수 있습니다. 우리는 기준 모델을 사용하여 성능을 평가한 결과, 우리 데이터셋으로 모델을 미세 조정하면 성능이 향상되지만, 현재 모델은 여전히 암묵적인 감정 상태를 추론하는 데 어려움을 겪는다는 것을 확인했습니다. ETC 과제는 대화에서 더욱 풍부한 감정 이해에 대한 추가 연구를 장려할 것입니다. 데이터셋은 다음 주소에서 공개적으로 이용할 수 있습니다: https://github.com/UEC-InabaLab/ETCDataset.

0 Citations
0 Influential
41.5 Altmetric
Score: 207.4
#6 2603.04099v1 Mar 04, 2026 cs.CV

고차원 위치 인코딩 및 비국소 MLP를 활용한 효율적인 포인트 클라우드 처리 Efficient Point Cloud Processing with High-Dimensional Positional Encoding and Non-Local MLPs

다층 퍼셉트론(MLP) 모델은 현대적인 포인트 클라우드 처리의 기반이 됩니다. 그러나 이러한 모델의 복잡한 네트워크 구조는 그 강점의 원인을 가리고 모델 적용 범위를 제한합니다. 본 논문에서는 포인트 클라우드 처리의 모듈화된 특징 추출을 위한 두 단계의 추상화 및 정제(ABS-REF) 관점을 제시합니다. 이 관점은 초기 모델이 ABS 단계에 집중했던 반면, 최근 기술은 성능 향상을 위해 정교한 REF 단계를 설계한다는 점을 명확히 합니다. 또한, 트랜스포머 문헌의 '위치 인코딩' 개념을 확장하여 내재된 위치 정보를 명시적으로 활용하는 고차원 위치 인코딩(HPE) 모듈을 제안합니다. HPE는 MLP 기반 아키텍처에 쉽게 적용할 수 있으며, 트랜스포머 기반 방법과도 호환됩니다. 제안하는 ABS-REF 관점에서, MLP 기반 방법의 지역 집계 방식을 재고하고, 이웃 간의 지역적 관계를 파악하는 데 사용되는 시간 소모적인 지역 MLP 연산을 대체합니다. 대신, 효율적인 비국소 정보 업데이트를 위해 비국소 MLP를 사용하고, 제안하는 HPE를 결합하여 효과적인 지역 정보 표현을 가능하게 합니다. 개발된 HPE 모듈을 활용하여 ABS-REF 패러다임을 따르는 MLP 네트워크인 HPENets를 개발했으며, 확장 가능한 HPE 기반 REF 단계를 포함합니다. 네 가지 다양한 작업에 걸쳐 일곱 개의 공개 데이터 세트에서 수행한 광범위한 실험 결과, HPENets는 효율성과 효과성 간의 균형을 잘 유지하는 것으로 나타났습니다. 특히, 강력한 MLP 기반 모델인 PointNeXt를 ScanObjectNN 데이터 세트에서 1.1%의 mAcc, S3DIS 데이터 세트에서 4.0%의 mIoU, ScanNet 데이터 세트에서 1.8%의 mIoU, ShapeNetPart 데이터 세트에서 0.2%의 Cls. mIoU로 능가했으며, FLOPs는 각각 50.0%, 21.5%, 23.1%, 44.4% 수준입니다. 소스 코드는 https://github.com/zouyanmei/HPENet_v2.git 에서 확인할 수 있습니다.

0 Citations
0 Influential
40.0 Altmetric
Score: 200.0
#7 2603.05308v1 Mar 05, 2026 cs.CL

Med-V1: 제로샷 학습 및 확장 가능한 생물 의학 증거 추론을 위한 소형 언어 모델 Med-V1: Small Language Models for Zero-shot and Scalable Biomedical Evidence Attribution

논문이 특정 주장을 뒷받침하는지 여부를 평가하는 것은 환각 탐지 및 주장 검증에 필수적입니다. 대규모 언어 모델(LLM)은 이 작업을 자동화할 잠재력을 가지고 있지만, 강력한 성능을 달성하려면 GPT-5와 같은 최첨단 모델이 필요하며, 이는 대규모 배포에 매우 비쌉니다. 효율적인 생물 의학 증거 추론을 위해, 본 연구에서는 총 30억 개의 파라미터만을 가진 소형 언어 모델인 Med-V1 패밀리를 제안합니다. 본 연구에서 새로 개발된 고품질 합성 데이터로 훈련된 Med-V1은 다섯 가지 생물 의학 벤치마크에서 기본 모델보다 현저하게 우수한 성능(+27.0% ~ +71.3%)을 보입니다. Med-V1은 크기가 작음에도 불구하고 GPT-5와 같은 최첨단 LLM과 유사한 성능을 보이며, 예측에 대한 고품질 설명을 제공합니다. 우리는 Med-V1을 사용하여 LLM이 생성한 답변에서 다양한 인용 지침 하에 발생하는 환각을 정량적으로 분석하는 최초의 사례 연구를 수행했습니다. 결과에 따르면 형식 지침은 인용의 유효성과 환각에 큰 영향을 미치며, GPT-5는 더 많은 주장을 생성하지만 GPT-4o와 유사한 환각률을 보였습니다. 또한, Med-V1이 임상 지침에서 중요한 증거의 잘못된 인용을 자동으로 식별하여, 대규모로 파악하기 어려운 잠재적인 부정적인 공중 보건 영향을 드러낼 수 있는 또 다른 사례 연구를 제시합니다. 전반적으로, Med-V1은 생물 의학 증거 추론 및 검증 작업에 대한 실용적이고 실제적인 응용 분야에서 최첨단 LLM에 대한 효율적이고 정확하며 가벼운 대안을 제공합니다. Med-V1은 https://github.com/ncbi-nlp/Med-V1 에서 이용 가능합니다.

0 Citations
0 Influential
39.0 Altmetric
Score: 195.2
#8 2603.05399v1 Mar 05, 2026 cs.AI

판사 신뢰성 검증 도구: LLM 판사의 신뢰성 스트레스 테스트 Judge Reliability Harness: Stress Testing the Reliability of LLM Judges

본 논문에서는 LLM 판사의 신뢰성을 테스트하는 검증 모음을 구축하기 위한 오픈 소스 라이브러리인 '판사 신뢰성 검증 도구'를 소개합니다. LLM 기반 채점이 AI 벤치마크에서 널리 사용됨에 따라, 이러한 방법의 신뢰성을 효율적으로 평가하기 위한 도구가 더욱 필요합니다. '판사 신뢰성 검증 도구'는 벤치마크 데이터셋과 LLM 판사 구성을 입력받아, 자유 응답 및 에이전트 기반 작업 형식에 대한 이진 판단 정확도 및 순위 평가 성능을 평가하는 신뢰성 테스트를 생성합니다. 우리는 안전, 설득력, 오용, 에이전트 행동을 포괄하는 네 가지 벤치마크에서 최첨단 LLM 판사 네 가지를 평가한 결과, 모델 및 교란 유형에 따라 성능에 상당한 차이가 있음을 확인했습니다. 이는 LLM 판사의 견고성을 향상시킬 수 있는 기회를 보여줍니다. 본 논문에서 평가한 어떤 판사도 '판사 신뢰성 검증 도구'를 사용하여 모든 벤치마크에서 일관된 신뢰성을 나타내지 않습니다. 예를 들어, 초기 실험에서 LLM 판사가 수행하는 작업의 능력을 판단하는 정확도를 측정했을 때, 간단한 텍스트 서식 변경, 패러프레이징, 내용의 변경, 그리고 LLM이 생성한 응답의 정답 레이블 변경과 같은 요소로 인해 일관성 문제가 발생하는 것을 확인했습니다. 본 도구의 코드는 다음 주소에서 확인할 수 있습니다: https://github.com/RANDCorporation/judge-reliability-harness

0 Citations
0 Influential
38.7 Altmetric
Score: 193.5
#9 2603.04293v1 Mar 04, 2026 cs.SD

LabelBuddy: AI 지원을 활용한 오픈 소스 음악 및 오디오 언어 어노테이션 태깅 도구 LabelBuddy: An Open Source Music and Audio Language Annotation Tagging Tool Using AI Assistance

음악 정보 검색(MIR) 분야에서 머신 러닝(ML), 대규모 오디오 언어 모델(LALM), 그리고 자율 AI 에이전트의 발전은 정적인 태깅 방식에서 벗어나 풍부하고 인간의 의도와 일관된 표현 학습으로의 전환을 요구합니다. 그러나 오디오 어노테이션의 주관적인 미묘한 차이를 포착할 수 있는 오픈 소스 인프라의 부족은 여전히 중요한 병목 현상입니다. 본 논문에서는 인간의 의도와 기계의 이해 사이의 간극을 해소하기 위해 설계된 오픈 소스 협업 자동 태깅 오디오 어노테이션 도구인 extbf{LabelBuddy}를 소개합니다. LabelBuddy는 기존의 정적인 도구와 달리, 컨테이너화된 백엔드를 통해 인터페이스와 추론을 분리하여 사용자가 AI 지원 사전 어노테이션을 위해 사용자 정의 모델을 연결할 수 있도록 합니다. 본 논문에서는 다중 사용자 합의, 컨테이너화된 모델 격리, 그리고 에이전트 및 LALM 확장을 위한 로드맵을 지원하는 시스템 아키텍처를 설명합니다. 코드는 https://github.com/GiannisProkopiou/gsoc2022-Label-buddy 에서 확인할 수 있습니다.

0 Citations
0 Influential
38.5 Altmetric
Score: 192.3
#10 2603.03939v1 Mar 04, 2026 cs.CV

2D-3D 다중 모드 산업 이상 감지를 위한 교차 모드 매핑 및 이중 분기 재구축 Cross-Modal Mapping and Dual-Branch Reconstruction for 2D-3D Multimodal Industrial Anomaly Detection

다중 모드 산업 이상 감지는 RGB 이미지의 외관 정보와 3D 표면 형상 정보를 통합함으로써 이점을 얻을 수 있지만, 기존의 extit{비지도} 학습 방법은 종종 메모리 뱅크, 교수-학생 아키텍처 또는 불안정한 융합 방식을 사용하며, 이는 노이즈가 많은 깊이 정보, 약한 텍스처 또는 누락된 모드 환경에서 견고성을 제한합니다. 본 논문에서는 가볍고 모드 유연성을 갖춘 비지도 학습 프레임워크인 extbf{CMDR-IAD}를 제안합니다. extbf{CMDR-IAD}는 2D+3D 다중 모드 환경뿐만 아니라 단일 모드(2D만 또는 3D만) 환경에서도 신뢰할 수 있는 이상 감지를 수행합니다. extbf{CMDR-IAD}는 양방향 2D ↔ 3D 교차 모드 매핑을 통해 외관-형상 일관성을 모델링하고, 또한 독립적으로 일반적인 텍스처와 기하학적 구조를 캡처하는 이중 분기 재구축을 사용합니다. 두 부분으로 구성된 융합 전략은 다음과 같습니다. 신뢰도 기반 매핑 이상은 공간적으로 일관된 텍스처-형상 불일치를 강조하고, 가중치가 적용된 재구축 이상은 외관 및 기하학적 편차를 적응적으로 균형 있게 조정하여, 깊이 정보가 부족하거나 텍스처가 낮은 영역에서도 안정적이고 정확한 이상 감지를 가능하게 합니다. MVTec 3D-AD 벤치마크에서 CMDR-IAD는 메모리 뱅크 없이 최첨단 성능을 달성했으며, 이미지 레벨 AUROC (I-AUROC) 97.3%, 픽셀 레벨 AUROC (P-AUROC) 99.6%, AUPRO 97.6%를 기록했습니다. 실제 폴리우레탄 절단 데이터셋에서 3D만 사용하는 모델은 I-AUROC 92.6% 및 P-AUROC 92.5%를 달성하여 실제 산업 환경에서 강력한 효과를 입증했습니다. 이러한 결과는 본 프레임워크의 견고성, 모드 유연성 및 제안된 융합 전략의 효과를 강조합니다. 본 연구의 소스 코드는 https://github.com/ECGAI-Research/CMDR-IAD/ 에서 확인할 수 있습니다.

0 Citations
0 Influential
37.5 Altmetric
Score: 187.5