상세 컨텐츠

본문 제목

Latent와 ESRGAN 업스케일러 비교

Stable Diffusion

by dfus1on 2023. 4. 29. 15:46

본문

R-ESRGAN 4x+ Anime6B
Latent
Original

Latent 와 ESRGAN 업스케일러 비교

Latent와 ESRGAN[각주:1]은 모두 GAN(Generative Adversarial Network)이라는 딥러닝 모델을 사용하여 이미지를 업스케일링합니다. 그러나 두 모델은 서로 다른 방식으로 이미지를 업스케일링합니다.

 

ESRGAN: Enhanced Super-Resolution Generative Adversarial Networks

ESRGAN: Enhanced Super-Resolution Generative Adversarial Networks Star | Fork | Issue Pipeine for Image Super-Resolution task that based on a frequently cited paper, ESRGAN: Enhanced Super-Resolution Generative Adversarial Networks (Wang Xintao et al.), pu

esrgan.readthedocs.io

 

Latent는 이미지의 특징을 추출하여 업스케일링하는 방식입니다. 이 방식은 이미지의 특징을 추출하여 업스케일링하기 때문에 일반적인 업스케일러보다 더욱 자연스러운 결과를 얻을 수 있습니다. 반면 ESRGAN은 SRGAN(Super-Resolution Generative Adversarial Network)[각주:2]이라는 딥러닝 모델을 사용하여 이미지를 업스케일링합니다.

 

Generative Adversarial Network and Super Resolution GAN(SRGAN)

Image super-resolution (SR) techniques reconstruct a higher-resolution image from the observed lower-resolution images. An intuitive…

peaceful0907.medium.com

 

SRGAN은 GAN의 변형 모델로서, 생성자와 판별자가 여러 개로 구성되어 있습니다. 이를 통해 더욱 자연스러운 결과를 얻을 수 있습니다. 두 모델은 각각의 방식으로 이미지를 업스케일링하기 때문에 결과물이 서로 다릅니다. 따라서 어떤 모델이 더 좋다고 일반화하기는 어렵습니다. 그러나 두 모델 모두 딥러닝 기술을 사용하여 이미지를 업스케일링하기 때문에 일반적인 업스케일러보다 더욱 자연스러운 결과를 얻을 수 있습니다.

 

Latent Diffusion과 R-ESRGAN 중 어떤 것이 더 좋은지는 상황에 따라 다릅니다. 예를 들어, Latent Diffusion은 데이터셋의 특징을 확률분포로 저장하기 때문에 작은 데이터셋에서도 좋은 성능을 보입니다. 반면에 R-ESRGAN은 GAN을 사용하기 때문에 대규모 데이터셋에서 더 좋은 성능을 보입니다.

 

Latent 업스케일러는 세부 묘사가 회화 같은 풍부함을 가지고 있어, 이미지의 디테일을 고스란히 재현해줍니다. 디테일이 부족한 이미지의 경우 Latent를 사용하여 업스케일링하면 좋은 결과를 얻을 수 있습니다. 반면, R-ESRGAN 4x+ Anime6B 업스케일러는 애니메이션 셀화 스타일로 깔끔하고 미려한 이미지를 생성해줍니다. 두 업스케일러를 사용하고 있는 체크포인트 모델의 약점을 보완하는 방향으로 사용하면 좋습니다.

 

업스케일 과정에서 인공지능의 개입 정도를 결정하는 Denoising strength는 0부터 1 사이의 값을 가집니다. 0.5 이하로 설정하면 업스케일 배수에 따라 제대로 되지 않거나 노이즈가 발생하기 쉬우므로 잘 사용하지 않습니다. 반면, 0.7 이상의 값은 원본 이미지와 차이가 많아져 원본 전혀 없던 물체가 생성되거나, 전혀 다른 이미지로 다시 그리기 때문에 권장하지 않습니다. 기본 권장값은 0.6 내외로 설정하는 것이 좋습니다.

반응형

관련글 더보기

댓글 영역