본문 바로가기

내 맘대로 읽는 논문 리뷰26

Deep Learning for Person Re-identification:A Survey and Outlook (2) Deep Learning for Person Re-identification: A Survey and Outlook https://arxiv.org/pdf/2001.04193.pdf person re-Identification task 모델 개관 (1)편 https://seokdonge.tistory.com/37 (1)편에 이어, 이번엔 open world의 re-ID 모델을 살펴보겠다. 지난 (1)편을 잠시 짚으면, closed world re-ID 모델의 구조와 특징을 살펴보았다. 근래까지의 연구를 살펴본 결과 다음과 같은 insight들을 얻을 수 있었는데, 1) OD모델등을 활용하여 raw data로 부터 candidate 추출, annotation통해 dataset 구축 2) 모델 구조에는 gl.. 2022. 9. 19.
Deep Learning for Person Re-identification:A Survey and Outlook (1) Deep Learning for Person Re-identification: A Survey and Outlook https://arxiv.org/pdf/2001.04193.pdf person re-Identification task 모델 개관 Introdution person re-ID task는, 주어진 사람 정보 (사진, 영상, 특징 텍스트)를 보고 다른 곳에서 해당 사람을 찾는 기술을 의미한다. 예상가능하다시피, 이는 찍힌 카메라 각도, 카메라 resolution, bbox 정의, 잘린 인물 사진, 부족할 수 있는 사람 정보에 따라 여러가지 어려운 문제들이 존재한다. 이를 풀기 위한 시도들을 해당 survey 논문에서 정리하여, 이를 따라가보자. 크게 Re-ID는 다음과 같은 flow를 따른다... 2022. 9. 18.
X-vector X-Vectors: Robust DNN Embeddings for Speaker Recognition 발행 2016 https://ieeexplore.ieee.org/abstract/document/8461375?casa_token=9dMIoIumcvEAAAAA:XJa_Z3ezdJ7T_IFejJxePVUN4uxgGMOKWjSPVMwhzDvyBd-nhts-sfa1SXb7V5dt1_z44PsnGa8 Introduction X-vector는 speaker recognition task를 DNN으로 학습하기 위하여 고안된 fixed-length embedding으로, 그 학습의 용이를 위한 잔향, noise augmentation을 활용하여 speaker recognition 분야에서 baseline보다 높은 .. 2022. 8. 10.
AutoVC AUTOVC: Zero-Shot Voice Style Transfer with Only Autoencoder Loss https://arxiv.org/abs/1905.05879 코드: https://github.com/auspicious3000/autovc Abstract zero-shot voice conversion 기술로 2019년에 나온 논문. 해당 기술은 쉽게 말하면 A의 목소리(음색)으로 녹음된 발화를 다른 B의 목소리(음색)로 바꾸는 기술이다. 아래 데모 페이지를 참고하면 더 이해가 빠를 것이다. https://auspicious3000.github.io/autovc-demo/ 이러한 기술은 style transfer 기술이라고 칭하는데, 비슷한 approach들로 GAN, CVAE등의 ge.. 2022. 7. 15.