Dataconomy FR
Subscribe
No Result
View All Result
Dataconomy FR
Subscribe
No Result
View All Result
Dataconomy FR
No Result
View All Result

Au-delà du boom de l’IA: pourquoi la ruée vers l’or ne fait que commencer

byGediminas Rickevičius, Vice President of Global Partnerships at Oxylabs
mars 10, 2025
in Trends
Home Trends
Share on FacebookShare on Twitter

Beaucoup penseraient que le boom de l’IA a immédiatement déclenché une énorme demande de données Web publiques. Après tout, ces modèles sont formés sur les données, et beaucoup de cela se trouve sur Internet. Il a une certaine vérité, mais ce n’est pas toute l’histoire.

Lorsque des outils comme Chatgpt ont commencé à en déployer l’un après l’autre, les modèles d’IA sur lesquels ils étaient basés étaient déjà formés. Les données ont déjà été acquises à partir de diverses sources et utilisées pour créer les outils introduits aux consommateurs. Bien sûr, ces outils s’amélioraient toujours à l’aide de données supplémentaires. Cependant, une grande partie de ces données a été collectée via des interactions avec les utilisateurs ou par les développeurs de ces outils via leurs méthodes internes. Au début, c’était suffisant.

Les choses ont commencé à changer lorsque ces solutions ont reçu la puissance des moteurs de recherche pour accéder aux données en temps réel. Le besoin de données Web a monté en flèche. Même ce n’était que l’échauffement par rapport à la demande de données Web qui s’accélère en ce moment.

Un pont sur le lac de connaissances

Progresser rapidement à l’ère de l’IA. Mais si vous repensez au moment où les premiers outils de conversation de l’IA ont été publiés, vous vous souvenez peut-être qu’ils avaient une faiblesse notable par rapport aux moteurs de recherche traditionnels – une coupure de connaissances.

Ils ne pouvaient savoir ce qui s’était passé jusqu’à la date à laquelle ils ont été libérés ou pour la dernière mise à jour. Ainsi, il y avait un écart entre la réalité dans laquelle vous viviez et cette dernière mise à jour. Des outils comme Chatgpt vous ont échoué lorsque vous vouliez explorer des événements récents ou obtenir des informations mises à jour et pertinentes.

Cela a changé avec l’avancement des moteurs de recherche alimentés par l’IA. Afin de fournir des résultats de recherche génératifs pertinents et fiables, ces outils doivent avoir accès à des données en ligne en temps réel. Un pont était nécessaire entre les modèles et Internet, sur lesquels les informations pouvaient voyager instantanément.

De nombreuses pièces, telles que de vastes réseaux proxy, des API de gratte et d’autres outils pour l’intégration transparente et l’accès ouvert aux sites Web, combinent pour créer l’infrastructure de collecte de données Web – ce pont nécessaire.

Et ce n’est que le début. Le Impact de la recherche générative Sur la façon dont nous naviguons sur Internet sera presque certainement le plus grand depuis l’arrivée de Google Recherche en 1998. Alors que nous assistons à son déploiement, les entreprises, des moteurs de recherche classiques établis aux startups émergentes et affamés, courent pour se tailler leur espace à l’avenir de la recherche. Cette course dépend en grande partie de la fiabilité d’un pont sur lequel ils courent.

L’IA devient multimodal

Les modèles d’IA que nous connaissons le plus fonctionnent dans un espace limité. Les chatbots peuvent lire et répondre aux invites textuelles. Même les outils les plus avancés qui peuvent générer des images basés sur des invites en langage naturel ont des limites assez strictes.

Une prochaine étape naturelle dans l’évolution de l’IA, AI multimodal Utilise plusieurs types de données pour fournir des sorties plus polyvalentes, perspicaces et bien basées. La formation d’IA multimodale nécessite de grands volumes de vidéo, audio, texte, parole et autres types de données. Ces modèles permettront également une génération de vidéos basée sur l’IA de niveau supérieur, entraînant une meilleure qualité et une cohérence interne des images générées.

Alors que la compétition s’intensifie avec de nouveaux joueurs comme En profondeur Émergeant soudainement et apparemment hors de nulle part, la question est de savoir quelles entreprises sont en avance pour développer des outils multimodaux à huis clos. Quoi qu’ils soient, ces entreprises ont besoin de capacités de grattage de données, qui sont sans précédent même à l’ère du Big Data.

Pour créer des outils multimodaux efficaces, en particulier les générateurs de vidéos, les développeurs doivent gratter de nombreuses données vidéo. Stracing des vidéos ne ressemble pas à gratter le HTML des pages Web basées sur le texte. La taille et la complexité de la tâche sont complètement différentes. Premièrement, les ensembles de données vidéo sont des milliers de fois plus grands que les ensembles de données HTML. Deuxièmement, vous devez obtenir l’imagerie, le son, les transcriptions – tous les aspects d’une vidéo, pour rendre votre outil compétitif sur le marché explosif.

Ainsi, les entreprises ont besoin d’un flux constant de données à la fois énorme et diversifiée. Mis à part l’immensité, l’infrastructure requise doit posséder des capacités avancées de traitement des données pour gérer ce flux sans erreurs. Certaines entreprises peuvent opter pour des ensembles de données ou des solutions prêts à l’emploi pour éviter même les moindres retards qui peuvent être très coûteux sur le marché rapide.

Multimodal rencontre multilingue

La demande d’IA multilingue fiable est énorme. Cela peut faciliter la vie en supprimant les barrières linguistiques dans les situations quotidiennes, ainsi que par la rationalisation opérations commerciales internationales. La plupart Modèles de grande langue ont été formés pour opérer principalement en anglais, et pendant qu’ils s’améliorent, il reste encore un long chemin à parcourir.

Il s’agit d’un autre domaine de compétition qui pourrait être particulièrement attrayant pour les startups d’IA qui ne peuvent pas rivaliser sur les marchés dominants des modèles d’IA basés en anglais. Internet parle toutes les langues et envisage une autre vague d’extraction de données par les développeurs de la course pour créer des outils de priorisation de la langue multilingue ou non anglaise.

Et comme cette demande déjà considérable s’accompagne de la demande de génération de vidéos dans d’autres langues, on peut facilement voir pourquoi avant d’être un échauffement pour l’IA. Beaucoup dans le développement de l’IA ont été repoussés pour plus tard, après que les bases peuvent être maîtrisées. Cela est arrivé plus tard. Maintenant, AI veut créer quoi que ce soit dans n’importe quel média et parler toutes les langues. Pour y parvenir, de nombreuses données inexploitées doivent encore être extraites.

Données à feuilles persistantes

Pour résumer, même à l’époque où le grattage des données Web est crucial pour dominer les paysages technologiques du futur, beaucoup de données doivent encore être grattées. Ceux qui ont les outils pour obtenir ces données en premier se positionneront pour diriger la prochaine étape du développement de l’IA.

Cependant, même après que les outils multimodaux de nouvelle génération soient formés et publiés, et la nécessité d’ensembles de données vidéo pour la formation se termine, il y aura toujours un type de données à forte demande – des données en temps réel. Les meilleurs outils d’IA seront ceux qui sont capables de fournir des informations pertinentes et de comprendre le contexte actuel.

Ainsi, ce que les développeurs d’IA ont besoin encore plus que de grands ensembles de données qui finiront par être l’âge, c’est l’intégration avec le Web qui permet un flux constant de données, nouvellement généré chaque seconde. Construire cette intégration et la rendre fiable est le défi qui définira l’avenir des marchés de l’IA.

Tags: Boom de l'IAruée vers l'or

Related Posts

L’avenir du référencement: comment les mises à jour de l’IA de Google changent le jeu

L’avenir du référencement: comment les mises à jour de l’IA de Google changent le jeu

avril 25, 2025
Implémentation de la première sécurité d’identité pour un contrôle d’accès plus fort

Implémentation de la première sécurité d’identité pour un contrôle d’accès plus fort

avril 15, 2025
Top 10 des matchs de la vitrine de l’initiative Triple-I

Top 10 des matchs de la vitrine de l’initiative Triple-I

avril 11, 2025
Switch 2 vs Switch Lite: La mise à niveau en vaut-elle la peine?

Switch 2 vs Switch Lite: La mise à niveau en vaut-elle la peine?

avril 9, 2025
Stratégies pour la mise à l’échelle des centres de données à l’époque de l’IA

Stratégies pour la mise à l’échelle des centres de données à l’époque de l’IA

mars 25, 2025
Comment afficher Instagram sans compte, y compris les profils privés

Comment afficher Instagram sans compte, y compris les profils privés

mars 5, 2025

Recent Posts

  • Le Qwen Code v0.5.0 d’Alibaba transforme le terminal en un écosystème de développement complet
  • Bethesda vise 600 heures de jeu pour Fallout 5
  • ASUS défend le port d’alimentation mal aligné du RTX 5090 HyperX comme "conception intentionnelle"
  • NVIDIA open source CUDA Tile IR sur GitHub
  • Le PDG de MicroStrategy explique les fondamentaux du Bitcoin "ça ne pourrait pas être mieux"

Recent Comments

Aucun commentaire à afficher.
Dataconomy FR

COPYRIGHT © DATACONOMY MEDIA GMBH, ALL RIGHTS RESERVED.

  • Home
  • Sample Page

Follow Us

  • Home
  • Sample Page
No Result
View All Result
Subscribe

This website uses cookies. By continuing to use this website you are giving consent to cookies being used. Visit our Privacy Policy.