L’un des défis actuels les plus importants pour les entreprises qui développent l’IA est l’intégration de grandes quantités de données d’entreprise dans leurs modèles d’IA.
Ces données sont l’élément vital de nombreuses applications d’IA, mais leur gestion peut être un processus complexe et long. Snorkel Flow, une mise à jour récente de la plateforme Snorkel AI, vise à rationaliser ce processus pour les entreprises cherchant à tirer parti de Lama 3un modèle d’IA puissant de Meta AI, et IA Gémeauxun autre modèle d’IA avancé de Google.
Pourquoi la gestion des données d’entreprise est-elle cruciale ?
Les données d’entreprise englobent un large éventail d’informations collectées par les entreprises au cours de leurs opérations quotidiennes. Cela peut inclure des données client, des dossiers financiers, des résultats de campagnes marketing, des données de capteurs provenant de machines et bien plus encore. La gestion efficace de ces données est cruciale pour plusieurs raisons.
Premièrement, cela permet aux entreprises d’identifier des tendances et des modèles qui autrement pourraient passer inaperçus. Par exemple, en analysant l’historique des achats des clients, une entreprise peut découvrir quels produits sont fréquemment achetés ensemble, ce qui lui permet d’adapter ses promotions et ses stratégies de placement de produits.
Deuxièmement, les données d’entreprise peuvent être utilisées pour améliorer la prise de décision. Par exemple, une institution financière peut analyser les données historiques sur les prêts pour développer des modèles d’évaluation des risques plus précis. Enfin, les données d’entreprise sont essentielles à la formation des modèles d’IA. Ces modèles nécessitent d’énormes quantités de données étiquetées pour apprendre et effectuer des tâches efficacement.
Cependant, la gestion de ces données peut constituer un défi de taille. Les données d’entreprise résident souvent dans différents formats et emplacements, ce qui rend leur accès et leur intégration difficiles. Le processus d’étiquetage des données pour la formation en IA peut également être coûteux et prendre du temps.
Voici où Flux de plongée avec tuba entre.
Apprivoiser le déluge de données
Snorkel Flow est une mise à jour de la plateforme Snorkel AI conçue pour simplifier l’intégration des données d’entreprise avec les modèles d’IA, en particulier Llama 3 et Gemini AI. Snorkel utilise une technique appelée étiquetage faible, qui permet aux utilisateurs d’exploiter des données non étiquetées à des fins de formation. Ceci est réalisé en définissant des heuristiques, ou des « fonctions d’étiquetage » qui peuvent attribuer automatiquement des étiquettes aux points de données en fonction de critères spécifiques.
Par exemple, imaginez une entreprise qui souhaite former un modèle d’IA pour identifier les tickets d’assistance client nécessitant une attention urgente. Une fonction d’étiquetage pourrait être créée pour identifier les tickets contenant des mots-clés ou des expressions spécifiques, tels que « urgent » ou « critique ». Même si ces étiquettes ne sont peut-être pas parfaites, elles peuvent néanmoins s’avérer utiles pour entraîner le modèle d’IA.
Snorkel Flow s’appuie sur ce concept en introduisant un flux de travail rationalisé pour gérer le processus d’étiquetage des données. Il permet aux utilisateurs de définir des fonctions d’étiquetage, de gérer les sources de données et de surveiller la qualité des étiquettes générées. Cela peut réduire considérablement le temps et les ressources nécessaires à la préparation des données d’entreprise pour la formation à l’IA.
Intégrations étendues de LLM et de sources de données
Dans un article de blog, Snorkel AI a expliqué en détail les innovations qu’ils ont apportées à Snorkel Flow. Voici les caractéristiques du Snorkel Flow renouvelé :
- Intégrations LLM: Snorkel Flow prend désormais en charge le réglage fin non seulement des modèles établis, mais également de la famille Gemini de Google et de Llama 3 de Meta. Cela élargit les options permettant aux entreprises de choisir le LLM le mieux adapté à leurs besoins.
- Intégrations de sources de données: De nouvelles intégrations avec Databricks Unity Catalog, Vertex AI et Microsoft Azure Machine Learning rationalisent l’accès aux données à des fins d’étiquetage, de conservation et de développement. Les entreprises peuvent exploiter leur infrastructure de données existante au sein de Snorkel Flow.
Prise en charge des données multimodales (bêta)
- Traitement d’image: Snorkel Flow introduit des fonctions d’étiquetage programmatique pour les images (actuellement en version bêta). Cela permet aux entreprises d’exploiter les données d’image ainsi que les données textuelles pour la formation LLM. Les entreprises peuvent utiliser cette fonctionnalité pour extraire des informations à partir de données visuelles et les intégrer à leurs solutions d’IA.
Sécurité et accessibilité améliorées
- Contrôle d’accès basé sur les rôles (RBAC): Cette fonctionnalité accorde aux administrateurs un contrôle granulaire sur l’accès aux données dans Snorkel Flow. Cela garantit que les informations sensibles sont protégées en limitant l’accès à des utilisateurs et à des sources de données spécifiques.
Traitement amélioré des documents : - Flux de travail PDF basé sur Foundation Model (FM): Snorkel Flow inclut désormais une interface utilisateur d’invite PDF dédiée pour l’étiquetage des PDF. Cela exploite des modèles de base avancés pour rationaliser le processus d’extraction d’informations précieuses à partir de documents complexes.
Intégration LLM simplifiée :
- SDK amélioré: Le SDK mis à niveau permet une intégration plus facile avec divers services LLM personnalisés, offrant aux entreprises plus de flexibilité dans leur processus de développement d’IA.
- Intégration des Databricks: La compatibilité transparente avec Databricks Unity Catalog permet un déploiement sans effort de modèles dans les flux de travail existants. Une intégration similaire est disponible avec Vertex AI et Azure Machine Learning.
Annotation de données rationalisée
- Annotation multitâche (aperçu de la version R2): Cette fonctionnalité, actuellement en préversion, permet aux PME (experts en la matière) d’annoter les données de plusieurs tâches au sein d’un même projet. Cela améliore l’efficacité en réduisant le temps de configuration du projet et en rationalisant les flux de travail.
Intégration avec Llama 3 et Gemini AI
Snorkel Flow s’intègre spécifiquement à Llama 3 et Gemini AI, deux modèles d’IA puissants. Llama 3, développé par Meta AI, est un modèle de langage factuel, formé sur un ensemble massif de données de texte et de code. Cela lui permet de comprendre et de répondre à des requêtes complexes de manière informative. Gemini AI, quant à lui, est un modèle de langage génératif, capable de créer différents formats de texte créatifs, comme des poèmes, du code, des scripts, des pièces musicales, des e-mails, des lettres, etc.
En intégrant Snorkel Flow à ces modèles, les entreprises peuvent tirer parti de la puissance de l’IA pour extraire des informations de leurs données d’entreprise et automatiser diverses tâches. Par exemple, Llama 3 pourrait être utilisé pour analyser les avis des clients et identifier les thèmes ou plaintes courants. Gemini AI, quant à elle, pourrait être utilisée pour générer des textes marketing créatifs ou des descriptions de produits basées sur des données existantes.
En simplifiant le processus d’étiquetage des données et en offrant une compatibilité avec des modèles puissants tels que Llama 3 et Gemini AI, Snorkel Flow a le potentiel d’ouvrir de nouvelles possibilités aux entreprises cherchant à tirer parti de la puissance de l’IA.
Crédit image en vedette: rawpixel.com/Freepik