카테고리 없음

Open Smile이란? open smile toolkit 사용방법

import ysy 2022. 8. 2. 11:15



먼저 open smile이라고 구글에 검색해보면 위키백과에서 아래와 같이 설명해준다.

openSMILE은 오디오 신호에서 기능을 자동으로 추출하고 음성 및 음악 신호를 분류하는 데 사용할 수있는 소스 소프트웨어입니다. "SMILE"은 "대용량 추출에 의한 음성 및 음악 해석(Speech & Music Interpretation by Large-space Extraction)"을 나타냅니다.



그러니까 음성과 같은 오디오 신호의 feature를 추출해주는 toolkit이라고 생각하면 된다.
이를 이용해서 .conf 파일을 획득할 수 있다.

 

참고) toolkit이란? : https://ysy2000.tistory.com/131


아하 그러니까 이 툴킷은 오디오 신호를 받아서 이 신호의 특징을 추출해주는 기능을 하는 것이다.

특징이라고 하면 mfcc, jitter, shimmer,loudness... 정말 여러 특징을 추출할 수 있다.

필요한 기능에 따라 사용하면 된다.


실제로 음성을 다루는 사람들이 librosa등 라이브러리를 사용하듯이 자주 사용한다고 한다.

한 블로그에서는 이렇게 말한다.

음성파일에 대한 Read/Write를 저수준으로 처리할 수 있을 뿐만 아니라, Sound에 관련된 일반적을 신호처리, 리샘플링, Feature Set가 사전정의 되어 있고 이를 추출하기 쉽다.  (F0, Loudness, F1,F2,F3,F4, MFCC, Jitter, shimmer, HNR, slope, spectralFlux) 등을 Feature set으로 사전 정의해 두었으며, 이에 대한 통계값을 추출하기 쉽다.  이러한 이유로 Feature Set을 사용할 때 편리하여, 전자/컴퓨터 분야 외의 종사자들이 많이 사용하는것으로 보인다.
출처: https://richwind.co.kr/174

그렇다면 어떻게 특징을 추출하고 사용한다는 것인가?

 

우선 아래 명령어로 opensmile을 설치해주어야 한다.

$ pip install opensmile

출처는 아래 그림과 같다.

https://audeering.github.io/opensmile-python/


공식 사이트에서 제시하는 사용 예는 아래와 같다.

import opensmile

smile = opensmile.Smile(
    feature_set=opensmile.FeatureSet.ComParE_2016,
    feature_level=opensmile.FeatureLevel.Functionals,
)
y = smile.process_file('audio.wav')

 

반응형