OpenAI ChatGPT La vision fait des vagues dans le monde de l’intelligence artificielle, mais de quoi s’agit-il exactement et comment exploiter ses capacités ? Dans cet article, nous décomposerons ChatGPT Vision en termes simples, explorerons ce qu’il peut et ne peut pas faire et offrirons des informations pratiques sur son utilisation efficace.
Qu’est-ce que ChatGPT Vision ?
Malgré les gros titres tape-à-l’œil, ChatGPT Vision n’est pas un robot doté d’une vision comparable à celle d’un humain. Il s’agit plutôt d’un chatbot IA doté d’une capacité spéciale : l’analyse d’images. Considérez-le comme un Sherlock Holmes photographique à l’ère numérique.
Le produit le plus récent d’OpenAI est ChatGPT Vision. Vous avez de la chance si vous avez un Abonnement ChatGPT Plus. Sur votre smartphone iOS ou Android, soumettez une photo à l’application ChatGPT pour l’utiliser. Une fois l’image soumise, le chatbot la regarde et ajoute les détails visuels au dialogue.
Nous avons déjà été époustouflés par OpenAI. Lors du lancement de GPT-4 en mars 2023, le terme « multimodalité » a été utilisé comme une allumeuse. Cependant, ils n’ont pas pu publier GPT-4V (GPT-4 avec vision) en raison de soucis de confidentialité et de reconnaissance faciale. Après des tests approfondis et des mesures de sécurité, ChatGPT Vision est désormais accessible au public, où les utilisateurs l’utilisent de manière créative. Pour plus d’informations, rendez-vous sur le article de blog officiel.
ChatGPT Vision prend une image de l’épicerie et la convertit en JSON en fonction des instructions.
GPT-4V est un superoutil de traitement d’image. pic.twitter.com/Vx7loyvJNi
–Mckay Wrigley (@mckaywrigley) 1 octobre 2023
Comment utiliser ChatGPT Vision
ChatGPT Vision est simple à utiliser. Si vous êtes membre de ChatGPT Plus, effectuez ces actions :
- Installez l’application ChatGPT sur votre smartphone iOS ou Android : Assurez-vous que l’application ChatGPT est installée sur votre appareil et que vous êtes abonné à ChatGPT Plus.
- Téléchargez une photo : Envoyez une photo à l’aide de l’application que vous souhaitez que ChatGPT Vision analyse.
- Conversation: Une fois l’image téléchargée, démarrez une conversation régulière en utilisant ChatGPT. Elle tiendra compte de ce qu’elle « voit » pour formuler ses réponses.
Ce que ChatGPT Vision peut et ne peut pas faire
Certes, il y a des choses que vous pouvez et ne pouvez pas faire, ce qui vaut évidemment également pour le modèle de base ChatGPT. Mettons les choses au clair sur les capacités et les limites de ChatGPT Vision :
Ce que ChatGPT Vision ne peut pas faire
Les utilisateurs pouvaient publier des photos de personnes dans le passé et demander à ChatGPT de les identifier, ce qui constituait un risque grave pour la vie privée. La version actuelle (GPT-4V), selon le document technique d’OpenAI, rejette ces demandes dans 98 % des cas, protégeant ainsi votre vie privée.
Les itérations précédentes de GPT-4V ont également rencontré des problèmes. Ils supposaient parfois des choses sur les autres en fonction de leurs caractéristiques extérieures ou de préjugés renforcés. Par exemple, il pourrait offrir des conseils positifs sur le corps s’il lui montrait une photo d’une femme et lui demandait des suggestions, dit Écrasable.
ChatGPT Vision peut prendre des captures d’écran de Figma et générer du code.
Construire avec l’IA devient sauvage. pic.twitter.com/D8yeJW1kGR
–Mckay Wrigley (@mckaywrigley) 29 septembre 2023
Ces suggestions sont ce qu’OpenAI appelle des « inférences non fondées » et la version actuelle de ChatGPT Vision les rejette catégoriquement. Il répond par « non » dans 97,2 % des cas lorsqu’il s’agit d’informations nuisibles, telles que des guides pratiques pour créer des composés dangereux ou tout autre élément lié aux dommages.
Même s’il s’est amélioré dans l’identification des discours et des images de haine, il n’est pas toujours précis, en particulier lorsqu’il s’agit de terminologies ou de symboles obscurs. Ce n’est donc pas une défense infaillible contre tout comportement négatif.
L’analyse des pages de destination avec ChatGPT Vision change la donne 🤯
Voici un didacticiel rapide sur la façon dont vous pouvez utiliser cette puissante fonctionnalité.
Laissez-moi savoir ce que vous pensez. pic.twitter.com/xkfNh7NcKx
– Sébo (@sebo_gm) 4 octobre 2023
Ce que ChatGPT Vision peut faire
Maintenant, parlons des choses amusantes :
- Décoder les règles complexes : ChatGPT Vision peut démystifier les réglementations de stationnement complexes, rendant ainsi la vie un peu plus facile.
- Traduire un texte manuscrit : C’est un assistant capable de lire et de traduire des notes manuscrites, donnant ainsi vie à de vieux documents.
- Créez des sites Web en toute simplicité : Si vous avez toujours voulu un site Web mais que vous ne saviez pas coder, ChatGPT Vision peut en créer un à partir de vos croquis.
- Retour artistique : Si vous aimez l’art, ChatGPT Vision peut vous fournir des critiques constructives, vous aidant ainsi à perfectionner vos compétences.
Comment tirer le meilleur parti de ChatGPT Vision
Pour exploiter efficacement ChatGPT Vision, considérez ces applications pratiques :
- Podcasts : Vous pouvez inviter ChatGPT à participer à vos podcasts. Il peut fonctionner comme un visiteur fictif, un vérificateur de faits ou même un coach conversationnel en temps réel.
- Assistant vocal : Utilisez les capacités linguistiques de ChatGPT pour la recherche et la production de contenu avec l’assistant vocal. En fonction de vos demandes, il peut recueillir des informations, résumer des articles et rédiger des textes.
- Descriptions automatiques : Fournissez du contenu accessible en utilisant ChatGPT pour fournir des descriptions audio pour vos articles et des légendes pour vos images optimisées pour les moteurs de recherche.
- Transcription: Laissez ChatGPT transcrire les discussions pour vous et vous aider à organiser vos idées. Sur la base de vos échanges, il pourra potentiellement formuler de nouvelles suggestions.
- Beauté visuelle : Découvrez comment améliorer votre contenu visuel grâce aux informations de ChatGPT. Il peut suggérer des visualisations de données, des images ou des infographies pour vous aider à rendre votre argument plus compréhensible.
- Réponses personnalisées : Téléchargez des photos pour obtenir des réponses personnalisées avec des questions basées sur des images. Ceci est utile dans divers secteurs, notamment la vente au détail et la santé.
- Image vers code : ChatGPT peut désormais traduire l’image d’une page Web en code HTML grâce à ses capacités de vision améliorées. un gain de temps non négligeable pour les sites web.
- Narration : La voix et l’image peuvent être combinées pour créer une narration interactive, du matériel pédagogique et peut-être même des jeux vidéo.
En résumé, ChatGPT Vision est une technologie d’IA révolutionnaire qui révolutionne la façon dont nous interagissons avec le matériel numérique. Bien qu’OpenAI ait pris des précautions pour être responsable et protéger votre vie privée, il est toujours important de l’utiliser de manière responsable.
À mesure que cette technologie progresse, nous pouvons nous attendre à ce que les producteurs intègrent ChatGPT Vision dans leurs processus de manière de plus en plus inventive, créant ainsi de nouvelles opportunités passionnantes dans toute une gamme de secteurs. Surveillez cet espace pour découvrir des avancées supplémentaires dans le domaine de l’IA !
Crédit image en vedette : Jonathan Kemper/Unsplash