Openai vient d’intégrer son générateur d’images le plus avancé dans GPT-4O, faisant de la génération d’images une «capacité principale» de ses modèles de langage. Cela permet la création d’images photoréalistes précises utiles pour diverses tâches, des diagrammes à la communication visuelle.
Les humains se sont toujours appuyés sur l’imagerie visuelle pour plus qu’une simple décoration – pensez aux peintures de grottes qui évoluent vers des infographies modernes. Alors que les modèles génératifs actuels excellent dans la création de visuels époustouflants, ils échouent souvent dans la production d’images pratiques. Les logos et les diagrammes, par exemple, nécessitent un mélange de sens précis et de contexte partagé, ce que GPT-4O vise à livrer.
GPT-4O peut rendre avec précision le texte, suivre de près les invites et tirer parti de sa base de connaissances intégrée, y compris la transformation des images téléchargées. Ces fonctionnalités aident à faire de la création d’images un outil plus pratique, améliorant la communication visuelle avec la précision.
La formation consistait à exposer les modèles à un mélange d’images et de texte en ligne, leur enseignant non seulement la façon dont les images se rapportent à la langue, mais sur la façon dont elles interconnectent. Le post-entraînement intensif améliore davantage la maîtrise visuelle du modèle, résultant en une génération d’images cohérente et contextuelle.
Les capacités de génération d’images GPT-4O comprennent:
- Rendu texte: Intègre des symboles précis à l’imagerie.
- GÉNÉRATION MULTIFURES: Affine les images par une conversation continue.
- Apprentissage dans le contexte: Analyse et apprend des images téléchargées par l’utilisateur.
- Connaissance du monde: Relie les connaissances entre le texte et les images.
- Photoréalisme et style: Crée ou transforme des images dans des styles variés.
Malgré ces progrès, le modèle n’est pas impeccable. OpenAI reconnaît des limites telles que les problèmes de recadrage, les hallucinations et les défis dans le graphique précis et le rendu multilingue de texte, qu’ils prévoient tous de traiter après le lancement.
La sécurité reste une priorité. OpenAI vise à équilibrer la liberté créative avec des normes de sécurité robustes, la mise en œuvre de mesures telles que la provenance C2PA et les mécanismes de recherche interne pour éviter une mauvaise utilisation.
La nouvelle fonctionnalité de génération d’images dans GPT-4O se déroule sur plus, pro, équipe et utilisateurs gratuits de Chatgpt. Il sera bientôt disponible pour les utilisateurs d’entreprise et d’EDU. Les développeurs peuvent espérer l’accès à l’API dans les prochaines semaines. Les utilisateurs peuvent créer des images simplement en décrivant leurs besoins dans le chat, en spécifiant des détails tels que le rapport d’aspect ou les couleurs.
En raison de la nature détaillée de ses images, ils pourraient prendre jusqu’à une minute à rendre.