Une nouvelle version du générateur d’images AI de Stability AI, Stable Diffusion XL (SDXL), a été publiée. La version la plus récente, SDXL 0.9, produit des visuels plus réalistes que son prédécesseur. De plus, il reproduit avec précision les mains, ce qui était un défaut dans les images générées par l’IA antérieures.
Stability AI affirme que le nouveau modèle est « un bond en avant dans les cas d’utilisation créatifs pour l’imagerie IA générative ». Lorsque les mêmes invites étaient utilisées avec SDXL 0.9 et Stable Diffusion XL bêta, les exemples de photographies de l’article de blog montraient des améliorations.
Il y a de nombreux aspects que ces améliorations ont montré leur présence, mais surtout, nous obtiendrons des résultats plus précis pour les mains. Avant la mise à jour, ces générateurs d’images IA produisaient des mains ressemblant à des spaghettis qui détruisaient toute la réalité et aussi la beauté des images. A partir de maintenant, ce ne sera plus un problème.
Tout ce que vous devez savoir sur SDXL 0.9
Le principal facteur à l’origine de cette amélioration de la composition de SDXL 0.9 par rapport à la version bêta est le nombre de paramètres, qui correspond au total de tous les poids et biais du réseau neuronal sur lequel le modèle est entraîné.
Avec un modèle de base de 3,6 milliards de paramètres et un pipeline d’ensemble de 6,6 milliards de paramètres (la sortie finale est produite en exécutant deux modèles et en combinant les résultats), SDXL 0.9 possède l’un des nombres de paramètres les plus élevés de tous les modèles d’image open source. La sortie générée de la première étape est affinée à l’aide du modèle de deuxième étape du pipeline.
« Malgré sa capacité à être exécuté sur un GPU grand public moderne, SDXL 0.9 présente un bond en avant dans les cas d’utilisation créatifs pour l’imagerie IA générative. La capacité de générer des créations hyperréalistes pour les films, la télévision, la musique et les vidéos pédagogiques, ainsi que d’offrir des avancées pour la conception et l’utilisation industrielle, place SDXL à l’avant-garde des applications du monde réel pour l’imagerie IA », a déclaré Stability AI dans son article de blog.
Des extraterrestres, des loups et une personne tenant une tasse de café font partie des images que le nouveau modèle semble produire avec une résolution plus élevée et des mains plus réalistes. Les mains étaient un simple «dire» pour identifier l’art généré par l’IA avant la sortie en mars de Midjourney v5, une plate-forme compétitive basée sur Discord.
Qu’en est-il des statistiques de lancement de la version bêta de SDXL 0.9 ?
Alors, qu’en est-il des retours de la communauté ? Heureusement, Stability AI a répondu à la question dans son article de blog.
« Depuis la version bêta de SDXL lancement le 13 avrilnous avons reçu d’excellentes réponses de nos Discorde de la communauté d’utilisateurs au nombre de près de 7 000. Ces utilisateurs ont généré plus de 700 000 images, soit en moyenne plus de 20 000 par jour. Plus de 54 000 images ont été entrées dans les « Showdowns » de la communauté Discord avec 3 521 images SDXL nominées comme gagnantes », a déclaré Stability AI.
Utiliser ControlNet Stable Diffusion, c’est comme jouer à Dieu avec la génération d’images AI
Configuration requise pour SDXL 0.9
Malgré sa sortie robuste et sa conception de modèle sophistiquée, SDXL 0.9 peut être exécuté sur un GPU grand public récent avec uniquement les exigences suivantes : un ordinateur exécutant Windows 10 ou 11 ou Linux, 16 Go de RAM et une carte graphique Nvidia GeForce RTX 20 (ou supérieure standard) avec au moins 8 Go de VRAM. Les utilisateurs de Linux peuvent également utiliser une carte AMD avec 16 Go de VRAM si cela convient.
- Système d’exploitation : Windows 10, 11 ou Linux
- RAM : 16 Go
- GPU : Nvidia GeForce RTX 20 avec au moins 8 Go de VRAM Si vous êtes un utilisateur Linux, vous pouvez également utiliser une carte AMD avec 16 Go de VRAM.
Les images générées par l’IA s’améliorent
Les images générées par l’IA continuent de s’améliorer chaque jour, grâce à de nouvelles innovations telles que Stability AI SDXL 0.9. Cependant, cela ne signifie pas que tous les autres outils sont également à un niveau similaire. Les développeurs sont confrontés à de nombreux problèmes.
La génération d’images claires et à haute résolution est l’un des principaux problèmes des producteurs d’images d’IA. La majorité des modèles actuels ne peuvent créer des photos qu’avec une résolution de 256 × 256 pixels ou moins, ce qui est insuffisant pour capturer les moindres détails d’objets complexes comme les mains ou les visages.
Les modèles nécessitent plus de données et de puissance de traitement pour produire des images plus grandes, ce qui n’est pas toujours possible ou pratique. Les modèles peuvent également connaître des sorties floues ou déformées ou un effondrement de mode, où ils produisent des images similaires ou identiques pour des entrées variées mais ne parviennent pas à maintenir la cohérence et le réalisme des images.
La création de visuels cohérents avec l’entrée ou l’environnement est un autre problème pour les producteurs d’images d’IA. Les modèles doivent comprendre la sémantique et la logique de l’entrée afin de produire des images qui lui correspondent.
Le modèle doit produire une image qui capture avec précision le style et le contenu du texte, par exemple, si l’entrée est une description textuelle d’une image. Ce n’est pas toujours simple, cependant, car le langage peut être peu clair, manquant ou contradictoire, et le modèle peut manquer de connaissances ou de bon sens pour le comprendre.
De plus, le modèle peut fournir des images qui ne sont pas pertinentes ou qui ne concordent pas avec le texte, comme un chat, lorsque le texte indique un chien. Cependant, des outils comme Stability AI SDXL 0.9 nous aideront à surmonter tous les problèmes.
Crédit image en vedette : IA de stabilité