Latent와 ESRGAN 업스케일러 비교

Stable Diffusion

Latent와 ESRGAN 업스케일러 비교

dfus1on 2023. 4. 29. 15:46

Latent 와 ESRGAN 업스케일러 비교

Latent와 ESRGAN^[각주:1]은 모두 GAN(Generative Adversarial Network)이라는 딥러닝 모델을 사용하여 이미지를 업스케일링합니다. 그러나 두 모델은 서로 다른 방식으로 이미지를 업스케일링합니다.

ESRGAN: Enhanced Super-Resolution Generative Adversarial Networks

ESRGAN: Enhanced Super-Resolution Generative Adversarial Networks Star | Fork | Issue Pipeine for Image Super-Resolution task that based on a frequently cited paper, ESRGAN: Enhanced Super-Resolution Generative Adversarial Networks (Wang Xintao et al.), pu

esrgan.readthedocs.io

Latent는 이미지의 특징을 추출하여 업스케일링하는 방식입니다. 이 방식은 이미지의 특징을 추출하여 업스케일링하기 때문에 일반적인 업스케일러보다 더욱 자연스러운 결과를 얻을 수 있습니다. 반면 ESRGAN은 SRGAN(Super-Resolution Generative Adversarial Network)^[각주:2]이라는 딥러닝 모델을 사용하여 이미지를 업스케일링합니다.

Generative Adversarial Network and Super Resolution GAN(SRGAN)

Image super-resolution (SR) techniques reconstruct a higher-resolution image from the observed lower-resolution images. An intuitive…

peaceful0907.medium.com

SRGAN은 GAN의 변형 모델로서, 생성자와 판별자가 여러 개로 구성되어 있습니다. 이를 통해 더욱 자연스러운 결과를 얻을 수 있습니다. 두 모델은 각각의 방식으로 이미지를 업스케일링하기 때문에 결과물이 서로 다릅니다. 따라서 어떤 모델이 더 좋다고 일반화하기는 어렵습니다. 그러나 두 모델 모두 딥러닝 기술을 사용하여 이미지를 업스케일링하기 때문에 일반적인 업스케일러보다 더욱 자연스러운 결과를 얻을 수 있습니다.

Latent Diffusion과 R-ESRGAN 중 어떤 것이 더 좋은지는 상황에 따라 다릅니다. 예를 들어, Latent Diffusion은 데이터셋의 특징을 확률분포로 저장하기 때문에 작은 데이터셋에서도 좋은 성능을 보입니다. 반면에 R-ESRGAN은 GAN을 사용하기 때문에 대규모 데이터셋에서 더 좋은 성능을 보입니다.

Latent 업스케일러는 세부 묘사가 회화 같은 풍부함을 가지고 있어, 이미지의 디테일을 고스란히 재현해줍니다. 디테일이 부족한 이미지의 경우 Latent를 사용하여 업스케일링하면 좋은 결과를 얻을 수 있습니다. 반면, R-ESRGAN 4x+ Anime6B 업스케일러는 애니메이션 셀화 스타일로 깔끔하고 미려한 이미지를 생성해줍니다. 두 업스케일러를 사용하고 있는 체크포인트 모델의 약점을 보완하는 방향으로 사용하면 좋습니다.

업스케일 과정에서 인공지능의 개입 정도를 결정하는 Denoising strength는 0부터 1 사이의 값을 가집니다. 0.5 이하로 설정하면 업스케일 배수에 따라 제대로 되지 않거나 노이즈가 발생하기 쉬우므로 잘 사용하지 않습니다. 반면, 0.7 이상의 값은 원본 이미지와 차이가 많아져 원본 전혀 없던 물체가 생성되거나, 전혀 다른 이미지로 다시 그리기 때문에 권장하지 않습니다. 기본 권장값은 0.6 내외로 설정하는 것이 좋습니다.