2601.16217v1 Jan 02, 2026 cs.CL

ChiEngMixBench: 자연스러운 중국어-영어 혼합 코드 생성에 대한 대규모 언어 모델 평가

ChiEngMixBench: Evaluating Large Language Models on Spontaneous and Natural Chinese-English Code-Mixed Generation

Yu Luo
Yu Luo
Citations: 168
h-index: 5
Tongxi Wang
Tongxi Wang
Citations: 3
h-index: 1
Qingyan Yang
Qingyan Yang
Citations: 0
h-index: 0

대규모 언어 모델과의 상호 작용에서 코드 혼합 현상이 점점 더 흔해지고 있지만, 기존 연구는 이를 종종 번역 또는 변환 문제로 단순화하여 모델의 전환 동작이 맥락에 적합하고 인간의 관습에 부합하는지 평가하기 어렵게 만듭니다. 우리는 진정한 커뮤니티 맥락에서 코드 혼합 능력을 평가하기 위해 설계된 최초의 벤치마크인 ChiEngMixBench를 소개합니다. ChiEngMixBench는 일반적인 구축 파이프라인을 기반으로 하며, 이를 통해 다양한 도메인 및 이중 언어 쌍에 걸쳐 확장 가능한 데이터 세트 개발이 가능합니다. ChiEngMixBench는 코드 혼합을 인지적 정렬 문제로 정의하며, 이는 상호 보완적인 두 가지 신호, 즉 '자연스러움'과 '자발성'으로 특징지어집니다. 실증적 평가는 우리의 지표가 모델 간의 코드 혼합 성능을 체계적으로 구별할 수 있음을 보여줍니다. 벤치마킹 외에도, 우리는 '용어 계층화 전략'이라는 암묵적으로 나타나는 현상을 발견했습니다. 이는 Matrix Language Frame (MLF) 이론과 일치하며, 다국어 대규모 언어 모델과 인간의 의사 소통 간의 구조화된 인지적 정렬을 나타냅니다.

Original Abstract

Code-mixing is increasingly prevalent in interactions between humans and large language models, yet existing work often reduces it to a translation or convertibility problem, making it difficult to assess whether a model's switching behavior is context-appropriate and aligned with human conventions. We introduce ChiEngMixBench, the first benchmark designed to evaluate code-mixing ability in authentic community contexts, built upon a general construction pipeline that enables scalable dataset development across domains and bilingual pairs. ChiEngMixBench formulates code-mixing as a cognitive alignment problem, characterized by two complementary signals: Spontaneity and Naturalness. Empirical evaluation shows that our metrics can systematically distinguish code-mixing performance across models. Beyond benchmarking, we further uncover an implicitly emergent Terminology Layering Strategy, a phenomenon consistent with the Matrix Language Frame (MLF) theory, indicating structured cognitive alignment between multilingual large language models and human communication.

0 Citations
0 Influential
2.5 Altmetric
12.5 Score

No Analysis Report Yet

This paper hasn't been analyzed by Gemini yet.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!