오디오 및 음성 분석을 위한 분광 그림 특징
Spectrogram features for audio and speech analysis
분광 그림 기반 표현은 딥러닝 오디오 분석 시스템의 주요 특징으로 자리 잡았으며, 음성 분석에도 자주 사용됩니다. 초기에는 분광 그림 기반 표현의 가장 큰 장점은 소리를 시간-주파수 평면에서 2차원 신호로 표현할 수 있다는 점이었습니다. 이는 소리 분석에 대한 해석 가능한 물리적 기반을 제공할 뿐만 아니라, 이미지 처리를 위해 개발된 컨볼루션 신경망과 같은 다양한 머신 러닝 기술의 활용을 가능하게 합니다. 분광 그림은 두 개의 차원의 해상도 및 범위, 그리고 각 요소의 표현 및 스케일링에 의해 특징지어집니다. 연구자들은 다양한 응용 분야에서 이러한 세 가지 특징에 대한 다양한 가능성을 탐구했으며, 서로 다른 설정이 다양한 작업에 적합하다는 것을 보여주었습니다. 본 논문에서는 분광 그림 기반 표현의 활용을 검토하고, 최첨단 기술을 조사하여, 전방단 특징 표현 선택이 다양한 작업에 대한 후방단 분류기 아키텍처와 어떻게 연관되는지를 분석합니다.
Spectrogram-based representations have grown to dominate the feature space for deep learning audio analysis systems, and are often adopted for speech analysis also. Initially, the primary motivator for spectrogram-based representations was their ability to present sound as a two dimensional signal in the time-frequency plane, which not only provides an interpretable physical basis for analysing sound, but also unlocks the use of a wide range of machine learning techniques such as convolutional neural networks, that had been developed for image processing. A spectrogram is a matrix characterised by the resolution and span of its two dimensions, as well as by the representation and scaling of each element. Many possibilities for these three characteristics have been explored by researchers across numerous application areas, with different settings showing affinity for various tasks. This paper reviews the use of spectrogram-based representations and surveys the state-of-the-art to question how front-end feature representation choice allies with back-end classifier architecture for different tasks.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.
Log in to request an AI analysis.