Les esprits novateurs de Black Forest Labs, à l’origine de la technologie révolutionnaire Stable Diffusion, ont créé leur dernier modèle : Flux AI. Cette nouvelle IA de conversion de texte en image, dotée de 12 milliards de paramètres, établit une nouvelle référence dans le domaine de la génération visuelle open source. Flux n’égale pas seulement les prouesses artistiques de concurrents comme Midjourney, mais promet également de surpasser les autres modèles du marché, quel que soit leur statut propriétaire.
Flux AI est présenté en trois variantes distinctes adaptées aux divers besoins des utilisateurs. Pour les passionnés et les développeurs, Flux Dev propose une licence non commerciale. C’est un environnement propice aux améliorations pilotées par la communauté. Ceux qui recherchent la vitesse sans compromettre l’efficacité peuvent se tourner vers Flux Schnell, une itération simplifiée qui offre des résultats jusqu’à dix fois plus rapides sous la licence flexible Apache 2. Pour les applications de qualité professionnelle, Flux Pro offre un accès exclusif via une API sophistiquée, répondant aux projets commerciaux à forte demande.
Comment essayer Flux AI ?
La disponibilité est transparente, avec Flux Dev et Flux Schnell prêts à être téléchargés sur Visage qui fait un câlinet un support d’intégration via ComfyUI pour des opérations locales rationalisées. Le lancement, annoncé jeudi dernier, souligne l’engagement de Black Forest Labs à repousser les frontières de la technologie des médias génératifs à base d’IA.
« Nos innovations incluent la création de VQGAN et de Latent Diffusion, les modèles de diffusion stable de Stability AI pour la génération d’images et de vidéos (Stable Diffusion XL, Stable Video Diffusion, Rectified Flow Transformers) et la distillation par diffusion contradictoire pour une synthèse d’images ultra-rapide et en temps réel », a déclaré l’équipe.
Après une levée de fonds impressionnante de 31 millions de dollars, menée par le géant de l’industrie Andreessen Horowitz et soutenue par des investisseurs influents tels que Brendan Iribe, Michael Ovitz et Garry Tan, Black Forest Labs a annoncé le lancement de Flux. Cette injection de fonds a propulsé le développement de ce qui est désormais annoncé comme une avancée révolutionnaire dans la synthèse d’images pilotée par l’IA.
Dans des évaluations comparatives rigoureuses, Flux AI a non seulement atteint mais dépassé les capacités de modèles établis comme Midjourney v6.1DALL-E 3 et SD3 Ultra sur plusieurs critères, notamment la qualité visuelle, le respect des consignes, la flexibilité en termes de taille et de rapport hauteur/largeur, les prouesses typographiques et la diversité des sorties. Selon les données de Black Forest, les itérations Pro et Dev de Flux sont désormais le summum de la technologie de génération d’images, le modèle Schnell affichant également des performances louables, se positionnant entre Midjourney v5 et Ideogram en termes de capacités.
Malgré ces avancées, il existe un inconvénient pour les utilisateurs disposant d’un matériel moins puissant. La taille imposante des modèles open source, environ 23 Gonécessite près de 24 Go de VRAM pour fonctionner efficacement jusqu’à ce qu’une version potentiellement plus légère et quantifiée soit disponible. Cette exigence peut aliéner les utilisateurs dont les GPU ne disposent que de 6 à 8 Go de VRAM, limitant ainsi leur capacité à participer aux dernières explorations de l’IA.
Néanmoins, Black Forest Labs a élaboré une solution en s’associant à Fal AI, créateurs du modèle Auraflow, pour faciliter génération d’images basée sur le cloud. Cette collaboration garantit que même les utilisateurs ne disposant pas du matériel le plus récent peuvent profiter de Flux. Disponibles pour des essais gratuits initiaux sur Replicate.com, les modèles, une fois le quota gratuit quotidien atteint, offrent une génération d’images rentable, avec 1 $ permettant d’obtenir soit 33 images de Flux Pro, soit 333 généreuses de Flux Schnell.
Flux contre Midjourney
Nous avons mis Flux et Midjourney à l’épreuve pour voir comment ils se comparent.
Consultez les comparaisons côte à côte et constatez les résultats par vous-même :
Une plage sereine au coucher du soleil, avec des vagues clapotant doucement sur le rivage, un palmier solitaire se balançant dans la brise et un voilier se découpant sur le ciel orange et rose vibrant
Flux AI :

À mi-parcours :

Une cabane confortable dans les bois en hiver, de la fumée s’échappant de la cheminée, des arbres couverts de neige qui l’entourent et une lumière chaleureuse et accueillante qui brille par les fenêtres
Flux AI :

À mi-parcours :

Un paysage urbain steampunk avec des machines complexes, des dirigeables flottant au-dessus et des personnes vêtues de vêtements de l’époque victorienne avec des améliorations mécaniques
Flux AI :

À mi-parcours :

Portrait en gros plan d’une femme âgée aux rides profondes et aux yeux sages, portant un chapeau patiné et une chemise en flanelle, debout devant une vieille grange en bois
Flux AI :

À mi-parcours :

Noter que Bien que nos comparaisons initiales entre Flux et Midjourney suggèrent que Midjourney produit généralement des visuels de qualité supérieure, il est important de noter que nous avons utilisé la version cloud de Flux pour ces tests. Pour mener une évaluation véritablement équitable, il serait nécessaire de télécharger Flux et de le déployer localement sur un GPU puissant. Cette approche dévoilerait probablement tout le potentiel des capacités de Flux, qui pourraient différer considérablement de nos résultats préliminaires.
Pour ceux qui souhaitent approfondir leurs connaissances, nous vous encourageons également à explorer la gamme de visuels générés par la communauté :
Un nouveau modèle de génération d’images open source est apparu de nulle part et il est en fait incroyablement bon ?
FLUX.1 par @bfl_ml pic.twitter.com/K89GHoh3PQ
– Pietro Schirano (@skirano) 1er août 2024
Crédits de l’image en vedette : Kerem Gülen/Flux