Finalmente voltei a reconfigurar um setup de gerador de imagens estilo Dall-e ou Midjourney, mas que roda localmente no meu PC. Tenho uma RTX 4090 pra isso mas roda com outras GPUs também, o lance é sempre ter o máximo de VRAM quanto possível.

Mas é um saco bagunçar a máquina com um tanto de venv de python e tudo mais. O ideal é usar Docker. Começa instalando o NVIDIA Toolkit pra Docker igual este tutorial:

https://docs.nvidia.com/datacenter/cloud-native/container-toolkit/latest/install-guide.html

Com isso Docker tem acesso a GPU agora. Daí é só configurar um docker compose e eu achei esta imagem pra subir:

https://github.com/mmartial/ComfyUI-Nvidia-Docker?tab=readme-ov-file

Só ler o README e seguir o que ele fala. Ele vai subir a interface web ComfyUI, que é a melhor hoje em dia e tem um estilo de Nodes e Workflow pra programar a geração de imagens. Pra quem é de Da Vinci Resolve ou Blender, é parecido.

Finalmente, mesmo os modelos abertos de Stable Diffusion sendo muito bons, eles ainda tem aqueles problemas de imagens de I.A. de mais de 5 dedos nas mãos, aparecendo uma terceira perna do nada, e não conseguindo escrever nenhuma palavra direito.

Mas aí tem o pulo do gato. Saiu um novo modelo aberto mais avançado, o FLUX. Depois de ter o ComfyUI funcionando, é só continuar seguindo este outro tutorial pra saber de onde baixar e onde instalar Flux:

https://comfyanonymous.github.io/ComfyUI_examples/flux/

E é isso aí! Com isso posso gerar imagens que um Dall-e/ChatGPT se recusa a gerar, e com a vantagem de ter menos halucinações e até com textos. Veja a imagem de exemplo abaixo como o texto aparece nítido e legível.

Reply to this note

Please Login to reply.

Discussion

Incrível como a IA consegue gerar uma imagem em alta resolução sem aquelas bizarrices nível Luma AI, tudo isso com um prompt tão simples quanto "Tom Cruise com rosto fechado e presunçoso segurando um pager preto retangular com a tela verde escrito "Hez-Sem-Bolá"".

Cheguei a configurar o Stable Difusion no meu PC para rodar localmente, só que meu PC de 10 anos não aguentou hahaha. Foram uns 20 minutos para gerar uma imagem na pior qualidade que você consegue imaginar

Já usava o comfy ui no docker com outros modelos, mas não conhecia esse 'FLUX'. Vou ser obrigado a data uma testada