Cheguei a configurar o Stable Difusion no meu PC para rodar localmente, só que meu PC de 10 anos não aguentou hahaha. Foram uns 20 minutos para gerar uma imagem na pior qualidade que você consegue imaginar
Finalmente voltei a reconfigurar um setup de gerador de imagens estilo Dall-e ou Midjourney, mas que roda localmente no meu PC. Tenho uma RTX 4090 pra isso mas roda com outras GPUs também, o lance é sempre ter o máximo de VRAM quanto possível.
Mas é um saco bagunçar a máquina com um tanto de venv de python e tudo mais. O ideal é usar Docker. Começa instalando o NVIDIA Toolkit pra Docker igual este tutorial:
https://docs.nvidia.com/datacenter/cloud-native/container-toolkit/latest/install-guide.html
Com isso Docker tem acesso a GPU agora. Daí é só configurar um docker compose e eu achei esta imagem pra subir:
https://github.com/mmartial/ComfyUI-Nvidia-Docker?tab=readme-ov-file
Só ler o README e seguir o que ele fala. Ele vai subir a interface web ComfyUI, que é a melhor hoje em dia e tem um estilo de Nodes e Workflow pra programar a geração de imagens. Pra quem é de Da Vinci Resolve ou Blender, é parecido.
Finalmente, mesmo os modelos abertos de Stable Diffusion sendo muito bons, eles ainda tem aqueles problemas de imagens de I.A. de mais de 5 dedos nas mãos, aparecendo uma terceira perna do nada, e não conseguindo escrever nenhuma palavra direito.
Mas aí tem o pulo do gato. Saiu um novo modelo aberto mais avançado, o FLUX. Depois de ter o ComfyUI funcionando, é só continuar seguindo este outro tutorial pra saber de onde baixar e onde instalar Flux:
https://comfyanonymous.github.io/ComfyUI_examples/flux/
E é isso aí! Com isso posso gerar imagens que um Dall-e/ChatGPT se recusa a gerar, e com a vantagem de ter menos halucinações e até com textos. Veja a imagem de exemplo abaixo como o texto aparece nítido e legível.
Discussion
No replies yet.