본문 바로가기
내 맘대로 읽는 논문 리뷰/CV

Deep Learning for Person Re-identification:A Survey and Outlook (2)

by 동석2 2022. 9. 19.

Deep Learning for Person Re-identification: A Survey and Outlook

https://arxiv.org/pdf/2001.04193.pdf

 

person re-Identification task 모델 개관

 

(1)편 https://seokdonge.tistory.com/37

 

(1)편에 이어, 이번엔 open world의 re-ID 모델을 살펴보겠다.

 

지난 (1)편을 잠시 짚으면, closed world re-ID 모델의 구조와 특징을 살펴보았다. 근래까지의 연구를 살펴본 결과 다음과 같은 insight들을 얻을 수 있었는데,

 

1) OD모델등을 활용하여 raw data로 부터 candidate 추출, annotation통해 dataset 구축

2) 모델 구조에는 global/local/auxilary/video feature를 학습할 수 있으며, 학습 결과로 부터

2-1) local 학습이 global보다 robustness가 조금 더 좋으나, 조금 더 복잡해질 수 있음.

2-2) 적절한 auxilary attribute 제공을 통해 정확도를 훨씬 높일 수 있다.

2-3) attention 기술을 적용하여, spatial/temporal 정보를 모음으로써 정확도를 더 높일 수 있다.

2-4) 여러 loss func이 있는데, multi-loss로써 결합하여 학습하는 것이 정확도를 더 높일 수 있다.

3) 이렇게 학습한 모델은 ranking retrieval 과정을 통해 유한한 gallery로 부터 query와 가장 비슷한(거리가 가까운) representation을 가지는 순서로 re-ranking되어 output을 도출한다.

4) 학습된 모델로 testing하여 사용한다.

4-1) 아직까지는 real-world에는 test하기 어려운 수준이다. cross-dataset 정확도가 낮으며, supervised learning방법으로는 적은 데이터셋에 대한 정확도가 너무 낮다.

 

결국 4-1에서, open world의 경우 또다른 테크닉을 적용할 필요가 있다는 것을 알았다.

open world에서 생기는 문제 별로, 어떤 식으로 극복을 해왔는지 살펴보자.

1) closed world에선 한가지 데이터타입(이미지, 영상 등)으로 통일하여 학습할 수 있지만, open world에선 text description이나 깨진 이미지, 몽타주 등 여러 이질적 데이터가 query에 쓰일 수 있다.

2) 또한 실시간을 중요시하는 open-world 문제가 있다면, bbox generation까지 가지 못하고 바로 raw image로 부터 candidate를 설정해야 할 수 있다.

3) open world에서는 3번 처럼 사진들을 일일이 annotation하기 어려운 경우가 많다.

4) 또한 annotation이 가능하다 하더라도, 잘못 annotate하는 등 신뢰도에 문제가 있을 수 있다. (noisy label)

5) open world에서는, gallery가 거의 무한대에 가까운 open-set일 수 있다.

 

1) Heterogeneous data => Heterogeneous Re-ID

 open world의 데이터셋은 언제나 한 가지 타입으로 존재하지 않는다. 위의 closed world모델에서는 이미지만 있는 데이터셋, 비디오만 있는 데이터셋을 상정했다면 여기선 예외 case들을 다룬다.

 

- Depth-based Re-ID

depth image라 불리는 데이터는, body shape나 skeleton에 관한 정보를 담고 있다. 해당 데이터를 분석할 수 있다면 ilumination이나 옷의 변화가 있어도 사람을 재인식할 수 있어, open world 테스팅에 효과가 있을 것이다.

해당 시도로는 recurrent attention-based model과, large RGB 데이터를 통한 depth image model이 있다.

- Text-to-Image Re-Id

text description으로 제공되는 데이터를 위한 모델로, query로 이미지가 공급되지 못할 때 유용하게 쓰일 수 있다.

gated neural attention model은 text description와 person image 간의 공통된 특징을 학습할 수 있기에 제안되었다. 곧 end-to-end training을 통해 text description만으로 image query로 변환 및 retrieval이 가능해진다.

물론, 이러한 방법에도 여전히 한계가 존재하여 성능이 좋지는 않다. (challenging.)

- Visible-Infrared Re-ID

적외선 카메라의 이미지를 이용한 것으로, 낮의 visible image와 밤의 적외선 이미지를 결합하여 학습하기 위한 연구이다.

최근에는 GAN을 이용해 cross-modality image를 생성하여 학습에 사용하려는 연구도 존재한다.

 

2) Raw images/Videos => End-to-End Re-ID

open world에서 Re-ID모델을 사용할 시, 모바일 환경이나 실시간이 필요한 환경같이 deploy에 제약이 걸린 경우가 많다. 이때에는 inference 시간을 줄이기 위해/메모리 사용을 줄이기 위해 OD 모델을 사용하지 못할 수도 있어, 결국 Raw image로 부터 candidate를 걸러야 한다.

그래서 end-to-end Re-ID 모델이 제안되었고, 이는 OD를 통한 person detection과 re-ID를 하나의 framework로 가능케 하는 모델이다.

관련된 모델은 다양한데, 각각의 설명은 생략하도록 한다. two-stage/one-stage로 하나의 Convolution network 혹은 graph network를 통해 raw image => re-ID output 을 한번에 가능케 하였다.

 

3) Unavailable/Limited Labels => Unsupervised/Semi-supervised Re-ID

open world에선 annotate를 하지 못하거나, 적은 수만 가능하다. 그렇기에 truth label값을 모르는 경우를 위해, unsupervised/semi-supervised Re-Id 가 제안되었다.

 

초기엔 metric, saliency등의 불변량을 학습하거나, cross-camera label estimation과 같은 시도가 존재했다.

dynamicgraph matching 알고리즘을 통해 label estimation을 하거나, clustering 및 soft label을 활용한 시도도 존재했다.

 

눈에띄는 문제는, open world data의 경우 찍힌 카메라 parameter, 환경에 따라 굉장히 큰 차이가 있는데, unsupervised learning을 통해 비슷한 사진끼리 묶는다면 clustering이 이러한 카메라 환경의 차이탓에 실제로 사람이 생각하는 similarity만큼 잘 안 묶인다는 것이다. 곧 이러한 domain gap은 설사 same identity images of different camera라도 안 묶이게 할 수 있다는 것.

(정말 쉽게 표현하면, 카메라의 특징 >>> 사람의 특징 일 수 있다는 것)

그래서 어떤 논문에선 intra-camera training(같은 카메라 학습)과 inter-camera training(다른 카메라 학습)을 분리하여, pseudo-labeling을 하여 unsupervied re-ID 성능을 크게 높인 바가 있다.

* 참고한 논문 https://arxiv.org/pdf/2103.11658.pdf

 

그 외 Semi-supervied re-ID에선 one-shot learning 등이 연구되었다.

 

Unsupervised Domain Adaptation, 은 일부 labeling된 데이터셋의 정보를 규모가 큰 unlabeled dataset에 적용하여 학습을 가능케 하는 방법 중 하나다.

방법도 다양한데, GAN을 통해 labeling된 데이터셋을 훈련하여 target-domain style로 만들어 supervised learning을 사용하는 방법, transfer learning을 사용하는 방법, 등등 존재한다. (더 많으니 궁금하다면 논문으로..!)

 

그렇다면 가장 좋은 Unsupervised learning re-ID의 성능은 어떨까. 가장 좋은 Market-1501기반 모델은 SpCL모델로, 90% 가량의 정확도를 보인다. (supervised기반의 경우 96%까지 나온다.) 곧 실제 환경에서 더 좋은 성능 기대할 수 있는 unsupervised model이 supervised와 큰 차이가 나지 않는 수준까지 왔다는 것. (물론, 관점에따라 아직도 6%차이가 난다라고 생각할 수도 있다.)

또한 여기서 최근의 powerful atttention metthod를 사용하고, target domain generation을 사용하는 등 부가적인 방법을 통해 SOTA 모델을 발전시킬 수도 있다고 한다. (적용 안되어있음)

 

4) Noisy annotation => Noise-Robust Re-ID

3)번과 비슷한 문제로, human annotation은 잘못될 경우도 있기에 robustness가 반드시 필요하다. 이를 위해 noise-robust re-ID 모델들이 연구되었다.

이는 단순화하면 Partial(occasion 삽입), Sample noise, Label noise 삽입한 학습 모델 등으로 나뉜다.

 

5) Open-set => Open-set Re-ID

무한한 candidate / query 량(학습하지 않은 사람들)을 어떻게 해결할 수 있을까? 논문에선

- Group Re-ID

사람들을 따로따로 분류하기 보다, 군집화하여 분류하기. - GNN등이 사용됨.

대신 group variation은 여전히 individual보다 어렵다.

- Dynamic Multi-Camera Net

학습하지 못한 camera의 이미지 해석에는, 새로 model adaptation 과정이 필요할 것. 이를 위해 active learning등을 사용할 수 있다. (open-set model에서 어쩌면 가장 중요한 문제이다.)

 

Conclusion

이렇게 open world Re-ID 모델까지 알아보았다. 이후엔 SOTA 모델들을 몇 개 조사할 예정인데, 대강 추가된 insight을 적어보면

 

1) heterogenous 데이터셋은 데이터들이 각각 다른 형태로 제공되는 것으로, 해결에는 추가적인 데이터 해석 모델 구조가 필요하다. (우선은 생각하지 않기로했음)

2) 제한된 환경에서의 구동 시, end-to-end model이 추천되며 이를 위한 다양한 시도도 존재한다.

3) unlabeled 데이터의 활용을 위해, 여러 unsupervised learning방법이 연구되었으며

3-1) 성능이 많이 올랐으나 여전히 supervised보단 낮으며

3-2) 신규 attention mechanism, GAN 등을 통한 transfer learning / new training data generation 등이 최근 주요 연구 토픽이다.

4) noisy label의 경우 여타 robust model 학습과 비슷하게 augmentation / noise 추가 등을 사용

5) open-set 데이터 해석을 위해선, active learning과 같이 새로운 camera/person(or group)에 대한 adaptation과정을 최소화할 필요가 있다.

 

이렇게 2편에 걸쳐 최근 Re-ID 모델의 동향을 알아보았다. 차후엔 SOTA모델 한 가지를 새로이 리뷰해보도록 하겠다.