이번에 소개할 논문은 Semi-supervised segmentation에 대한 논문이다. 논문에 나온 Feature를 설명하기에 앞서, 이해를 돕기 위한 중요한 사전 지식부터 정리하자.
우선 논문 제목에 쓰여있는 Semi-supervised란, unlabel data와 label data를 함께 이용하여 모델을 학습시키는 것이다.
보통 우리가 모델을 훈련시킬 때, label이 있는 data를 이용하여 학습을 한다. 하지만, label이 있는 data를 구하는 것은 cost가 들고, 우리는 unlabel data 또한 학습에 활용할 수 있는 방안을 생각해야 한다.
따라서 이번 논문의 기본 목적은 segmentation에서 unlabel data를 학습에서 활용할 수 있는 방안 제시한다.
그렇다면, unlabel data를 학습에 이용하려면 어떻게 해야할까?
앞서 설명했듯이 unlabel data는 말 그대로 label이 존재하지 않는 data이다. 따라서 이를 활용하기 위해서는 임의의 label을 주어야지만 loss를 계산하여 모델을 update 할 수 있다. 하지만 터무늬 없는 label을 주는 것은 모델의 학습을 당연히 방해하기 때문에, 모델의 학습을 방해하지 않으면서 의미 있는 label을 구해야 한다.
우선 현재의 Semi-supervised segmentation의 종류에 대해서 알아보도록 하자.
우선 제일 general 한 방법으로는, input perturbation과 feature perturbation이 있다.
perturbation의 사전적 정의는 작은 변화로, input perturbation은 이미지에 작은 변화를 주는 것이고 feature perturbation은 모델에 작은 변화를 주는 것이다. 작은 변화를 주어서 어떻게 학습을 진행하는 것일까?
input perturbation은 의미 있는 label을 구하는 데에 있어서 하나의 feature(모델)에 2개의 이미지를 입력하여 학습을 진행하는데, 이때 두 이미지는 서로 작은 변화가 있는 이미지이다.
이렇게 학습을 진행하면 두 개의 output이 나오는데, 이때 나온 하나의 output을 label로 정하고 다른 output에 이 label을 적용하여 모델을 학습시키는 것이다.
feature perturbation은 feature(모델)에서 여러 개의 구조는 같지만, 초기값이 다른 decoder들을 이용하여 label을 구하고 학습을 진행한다. input perturbation의 학습방법과 비슷하게, 한 feature에서 나온 output을 다른 feature의 label로 정하고, 이를 이용하여 학습을 진행하는 것이다.
이 외에서 GAN을 통해서 label을 구하는 GAN-based가 있고, 최근에는 Self-learning을 이용하여 학습을 진행한다. 그렇다면 이제 이 논문에서 제안한 CPS에 대해 알아보도록 하자.
CPS(cross pseudo supervision)
CPS는 perturbation 한 두 개의 Segmentation 네트워크를 사용하여 unlabel image도 학습에 이용한다. 이때, 각각 모델의 output인 pseduo map을 통해 나온 one-hot label map은 서로의 label이 되어 두 네트워크 모두 update를 할 수 있도록 한다.

여기서 P는 softmax 후에 나온 각 픽셀 값의 map이고, Y는 P를 이용하여 예측한 one-hot label map인데, Y를 서로에게 주어 두 모델의 연관성을 높인다.
이 모델에서 loss는 supervision loss와 cross pseudo supervision loss 두 가지가 존재한다.
우선 첫 번째로 supervision loss는 label이 있는 data에서 얻은 loss, 즉, 우리가 잘 아는 기본적인 loss이다. 이


https://arxiv.org/abs/2106.01226
Semi-Supervised Semantic Segmentation with Cross Pseudo Supervision
In this paper, we study the semi-supervised semantic segmentation problem via exploring both labeled data and extra unlabeled data. We propose a novel consistency regularization approach, called cross pseudo supervision (CPS). Our approach imposes the cons
arxiv.org
아래는 실험 결과 (참고)
Method | 1/16 | 1/8 | 1/4 | 1/2 | ||||
Resnet-50 | Resnet-101 | Resnet-50 | Resnet-101 | Resnet-50 | Resnet-101 | Resnet-50 | Resnet-101 | |
MT | 66.77 | 70.59 | 70.78 | 73.20 | 73.22 | 76.62 | 75.41 | 77.61 |
CCT | 65.22 | 67.94 | 70.87 | 73.00 | 73.43 | 76.17 | 74.75 | 77.56 |
CutMix-Seg | 68.90 | 72.56 | 70.70 | 72.69 | 72.46 | 74.25 | 74.49 | 75.89 |
GCT | 64.05 | 69.77 | 70.47 | 73.30 | 73.45 | 75.25 | 75.20 | 77.14 |
CPS | 68.21 | 72.18 | 73.20 | 75.83 | 74.24 | 77.55 | 75.91 | 78.64 |
CPS +cutmix | 71.98 | 74.48 | 73.67 | 76.44 | 74.90 | 77.68 | 76.15 | 78.64 |
Mean-Teacher(MT), Cross-Consistency Training(CCT), CutMix-Seg, Guided Collaborative Training(GCT)