본문 바로가기
AI

[Stable Diffusion] AI 이미지 생성 연습 - 2

by Brayden 2025. 8. 25.

스테이블 디퓨전으로 AI 이미지 생성 연습을 하고 있습니다.
이번에는 애니메이션 이미지를 생성해보려고 했는데요, 실사와는 다른 느낌의 이미지여서 생성하는데 또 다른 재미가 있더라고요.

 애니메이션, 무협물 느낌, 여자 무사가 검을 휘두르는 장면, 숲 속 배경

이번 이미지 생성의 목표는 검을 휘두르는 액션이 들어가므로 역동적인 애니메이션 장면과 표정을 잘 살리는 것을 목표로 하여 연습을 진행했습니다.
스테이블 디퓨전은 Web UI와 ComfyUI를 통해 동작시킬 수 있습니다. 저는 Web UI로 스테이블 디퓨전을 사용해 이미지 생성을 하고 있습니다. 스테이블 디퓨전 자체에도 여러 가지 버전이 있는데요. 이전에 실사 느낌 그림을 생성했을 때는 비교적 단순한 달리는 느낌의 동작이었어서 하위 버전에서 이미지를 생성한 뒤에, 스케일업 하는 방식을 사용했습니다. 하지만 이번 이미지생성의 경우 조금 더 역동적인 동작을 필요로 하기 때문에 하위 버전에서 원하는 동작을 생성하는데 좀 어려움을 겪었고, 최종적으로 좀 더상위 버전인 스테이블 디퓨전 XL (SDXL)을 사용하여 이미지를 생성했습니다. 
처음은 SD1 버전으로 이미지 생성을 시도했지만 원하는 느낌의 이미지를 생성하기가 쉽지 않았습니다. 역시 지난번과 마찬가지로 가장 먼저 ChatGPT에게 프롬프트를 추천받아 이미지를 생성해 봤는데요. 너무 투박하거나 심플한 이미지가 생성되어서 원하는 결과를 얻을 수는 없었고, 동작과 느낌에 대한 참고 정도는 할 수 있었습니다. 

이후에 프롬프트를 조금 수정하고 모델도 바꿔서 다시 이미지 생성을 시도해 보았는데요. 디테일 부분에서는 처음 생성한 이미지들보다는 조금 나아지긴 했지만, 해당 모델의 경우, 애니의 느낌보다는 반실사의 느낌이 조금 더 강했고, 동작을 잘 표현하지 못하는 문제가 있었습니다.

프롬프트는 유지한 채로 애니메이션의 느낌을 더 잘 살릴 수 있는 모델로 변경해서 다시 시도해 봤는데요. 이번에는 좀 더 애니메이션의 느낌은 나지만 프롬프트를 바꾸거나, 추가해 봐도 원하는 동작이나 표정이 도저히 나오지 않았고, 디테일한 부분에서 이미지가 왜곡되는 현상이 빈번하게 나타났습니다.

 그러다가 결국 해당 버전의 모델로는 원하는 이미지 형상을 생성할 수 없다고 판단해 상위 버전인 SDXL을 사용하기로 했습니다. SD1이나 SD1.5보다 이미지 생성 속도는 좀 더 오래 걸리지만, 프롬프트 수행 능력이나 디테일 면에서 월등한 차이가 있다고 하여 테스트를 진행했습니다.
초기에 실수한 부분이 있는데, 모델을 바꿔줄 경우 VAE도 스테이블 디퓨전 버전에 맞는 VAE를 사용해야 합니다. 모델은 SDXL모델을 사용하고 VAE는 하위버전에 호환되는 VAE를 적용했더니, 이미지가 완전히 깨지더라고요.

맞는 VAE로 변경하고 프롬프트도 SD1.5를 적용할 때와는 다르게 SDXL에 맞게끔 다시 조정을 하면서 테스트하다 보니 점점 원하는 형태의 이미지의 느낌을 찾을 수 있었습니다.

원하는 느낌과 표정을 더 잘 살리기 위해서 LoRA를 추가했습니다. LoRa의 강도 변경 없이 그대로 적용했더니 완전히 다른 느낌의 이미지로 바뀌어 버립니다.

LoRA의 강도를 조절하고, 프롬프트도 다시 조금씩 변경하면서 이미지 생성을 이어갔습니다. 동작이나 이펙트가 점점 더 원하는 결과에 가까워지고 있는 걸 확인할 수 있습니다. 

색감이 너무 쨍한 것 같아서 프롬프트 중에서 'vibrant colors'를 'Smooth colors'로 바꿨습니다. 'vibrant colors' 프롬프트는 좀 더 강한 색감이나 이펙트를 원할 때 사용하면 좋을 것 같습니다. 
 최종적으로 원했던 결과치에 부합하는 이미지를 얻을 수 있었습니다.

SDXL 모델의 사용하여 이미지를 생성할 경우, 이전 버전보다 시간이 2배 3배는 더 걸리는 것 같아요. 하지만 이미지의 디테일 적인 부분이나 프롬프트에 대한 이해도가 확실히 월등히 차이가 난다고 느껴집니다. 특히 손가락 표현에 대한 부분 역시 이전 버전보다 훨씬 더 정상적으로 표현되는 빈도가 높았습니다.
이미지의 컨셉이나 동작의 중요도에 따라 적절한 모델을 선택해서 이미지를 생성하면 될 것 같습니다.
프롬프트, 설정 공유합니다. 스케일업은 진행하지 않았습니다.

Stable Diffusion XL1.0

Prompt : 1 girl, sensitive, looking at viewer, swinging a sword, dense forest background, flowing hair, black hair, brown hair, chinese outfit, grey white outfit, chipao skirt, active jump action, swing a sword, grab a dual sword, swipe body action, open arms action, whirl wind effect, earing, open mouth, active eyes, soft colors, smooth texture, depth of field, dual sword, best quality, highres, high-resolution illustration, 8k, masterpiece, <lora:anime_sdxl_v2:0.3>, <lora:Aura_illu:0.8>

Negative Prompt : (negativeXL_D:0.75), neon effect, low quality, worst quality:1.3, monochrome , deformed, malformed hands , poorly drawn hands , mutated fingers , bad anatomy , extra limbs , poorly drawn face, watermark, 

Sampling Method : Euler a Karras
Sampling Step : 28
CFG Scale : 9
Seed : 4065738515, 3350729913

댓글