본문 바로가기
내 맘대로 읽는 논문 리뷰/Speech & Signal

X-vector

by 동석2 2022. 8. 10.

X-Vectors: Robust DNN Embeddings for Speaker Recognition

발행 2016

 

https://ieeexplore.ieee.org/abstract/document/8461375?casa_token=9dMIoIumcvEAAAAA:XJa_Z3ezdJ7T_IFejJxePVUN4uxgGMOKWjSPVMwhzDvyBd-nhts-sfa1SXb7V5dt1_z44PsnGa8

 

Introduction

X-vector는 speaker recognition task를 DNN으로 학습하기 위하여 고안된 fixed-length embedding으로, 그 학습의 용이를 위한 잔향, noise augmentation을 활용하여 speaker recognition 분야에서 baseline보다 높은 성과를 보인 모델이다.

물론, 현재의 speaker recognition task역시 transformer / wav2vec2 기반으로 진전이 이루어지나, speaker recognition 분야의 지평을 넓혔으며 구현 및 학습이 간편하다는 장점이 있다.

 

또한 이렇게 학습된 speech에 대한 embedding은, speaker recognition분야가 아니더라도 관련된 speech 분야 (speech를 통한 classification task 들)에 이용이 되기도 한다.

간단하게 리뷰를 해보고 넘어가겠다.

 

Architecture

data feature : 24 dim filterbanks & frame-length 25ms & mean-normalized with 3 sec window

크게 세 파트로 나뉘는데,

1. TDNN 파트

frame1 ~ fram5 부분으로, 1dim Convolution을 이용하여 부분적 time context를 학습. 범위를 조금씩 키워 확인

2. Statistics Pooling

각 T마다 mean/std Pooling을 통해 1500xT => 3000의 dim으로 pooling.

3. DNN 파트

segment6~ 부분으로, 선형층을 거쳐 최종적으로 N명의 speaker label에 대한 prob을 output으로.

 

구조 간단하여 추가 설명은 x

 

Experiments

VoxCeleb 데이터셋 : 1251명의 celeb speech video 데이터가 저장. 약 20k개의 총 speech recordings

augmentations : MUSAN 데이터셋 활용, (약 900가지의 Noise 관련 데이터)

상기 그림의 방법 중 하나 택하여 augmentation

 

이후 실제 실험의 경우, i-vector 및 다른 데이터셋에 대한 것으로 간단히 스킵하고 (실논문 참조)

 

VoxCeleb 데이터셋을 활용한 실험 결과표만 간단히 첨부한다.

 

Conclusion

이번 글은 아주 간단히 x-vector를 정리하면서, 이전에 읽었던 기억에서 놓친 점을 찾기..위한 글인데. 조금 예전 논문이어서 그런지 크게 참고할 부분은 없었고, 따로 code 및 implementation을 더 보게 된 것 같다.;

 

이 다음은 자주 읽었음에도 따로 정리를 하지 않았었던 wav2vec2에 대해 정리할 예정이다. 

'내 맘대로 읽는 논문 리뷰 > Speech & Signal' 카테고리의 다른 글

AutoVC  (0) 2022.07.15