컴퓨터비전

[논문 정리] Deep3D: Fully Automatic 2D-to-3D VideoConversion with Deep Convolutional NeuralNetworks

juice_moon 2022. 2. 7. 16:01

Deep3D Main Concept

과거 3D를 나타내기 위해서는 stereo 이미지를 이용하였다. 하지만, 하나의 view에서 다른 view의 이미지를 얻어내기 위해서는 사람이 알고리즘을 통해 일일히 계산해야한다는 문제점이 있다.

따라서 Deep3D는 stereo 이미지를 나누어서 하나의 이미지를 통해 나머지 이미지를 알아내는 것을 목표로 하였다. 즉, 왼쪽 눈으로 보는 이미지를 통해 오른쪽 눈으로 보는 이미지를 도출해내는 모델을 만들었다. 

 

Deep3D Method

Deep3D는 network 각 단계에서 convolution 계산을 통해 나온 map들을 다시 Deconvolution을 진행한다. 이를 통해 각 단계별로 계산되는 특징에 대해 구할 수 있도록 한다. 또한 Upsampling한 feature들을 합친 후에 컨볼루션을 통과한 후, 소프트맥스 변환을 적용하여 각 disparity level에 대한 확률을 구하도록 하였다. 마지막으로 이 확률 맵과 left view를 이용하여 right view를 구하도록 하여, 실제 right view의 차이를 비교하며 학습을 진행한다.  

출처: Deep3D: Fully Automatic 2D-to-3D VideoConversion with Deep Convolutional NeuralNetworks

 

Deep3D Evaluation

이 논문이 꽤 오래전에 나온 논문이기 때문에, 모델도 간단하고 method 또한 복잡하지 않았다. 하지만 각 feature를 모두 합쳐, 다시 disparity-map에 대한 하나의 컨볼루션 맵과 softmax를 통해 확률을 구하고 이를 이용하여 right view를 구하는 방식이 과연 올바른 방법인지 의문이 든다.

물론 데이터의 양이 방대하고, 다양한 depth에 대한 학습이 가능하다면 이러한 방식이 가능할수도 있겠지만 학습량이 방대하지 않으므로, 실제 right view를 구하는 것보다 적당히 오른쪽으로 사진을 이동시켜 결과를 만들어내는 것이 아닐까 하는 생각이 들었다. 

 

논문 URL

https://link.springer.com/content/pdf/10.1007%2F978-3-319-46493-0_51.pdf