Dataconomy FR
Subscribe
No Result
View All Result
Dataconomy FR
Subscribe
No Result
View All Result
Dataconomy FR
No Result
View All Result

DeepSeek-OCR : un nouveau modèle d’IA open source devient viral sur GitHub

byKerem Gülen
octobre 21, 2025
in Artificial Intelligence, News
Home Artificial Intelligence
Share on FacebookShare on Twitter

Un nouveau modèle open source nommé DeepSeek-OCR a été publié, bouleversant le paradigme traditionnel des grands modèles. Le modèle, qui était open source hier après-midi, a connu une ascension fulgurante dans la communauté de l’IA, gagnant plus de 4 000 étoiles sur GitHub du jour au lendemain. L’objectif principal de DeepSeek-OCR est une nouvelle approche visuelle de la gestion du texte, qui promet de résoudre l’un des plus grands défis de l’IA : l’efficacité du contexte long.

Comment DeepSeek-OCR change la donne

Le nouveau modèle DeepSeek-OCR n’est pas simplement un autre outil de lecture de texte. Sa puissance réside dans sa capacité à compresser les informations. Selon ses créateurs, le modèle peut prendre un article de 1 000 mots et le compresser en seulement 100 jetons visuels. Cela représente un taux de compression décuplé avec une précision de 97 %. Cette efficacité est remarquable ; un seul GPU NVIDIA A100 peut traiter 200 000 pages de données par jour à l’aide de la méthode DeepSeek-OCR. Cette nouvelle approche de traitement pourrait signaler un changement significatif dans les méthodes de saisie utilisées pour les grands modèles. L’essor rapide de DeepSeek-OCR a été amplifié par des soutiens de haut niveau. Andrej Karpathy, co-fondateur d’OpenAI et ancien directeur du pilote automatique chez Tesla, a partagé son enthousiasme pour le journal. Il a qualifié DeepSeek-OCR de « bon modèle OCR » et a souligné sa « partie la plus intéressante » : le concept d’une IA de vision par ordinateur « se faisant passer pour une personne utilisant le langage naturel ». https://twitter.com/karpathy/status/1980397031542989305 Karpathy pense que cette méthode visuelle d’abord est une entrée supérieure pour les grands modèles de langage. Il a proposé que les LLM utilisent des images comme entrée principale, et même lors du traitement de texte brut, ils devraient d’abord le restituer sous forme d’image. Selon lui, cela entraînerait une compression des informations beaucoup plus élevée et un flux d’informations plus généralisé. Karpathy a également souligné que l’approche DeepSeek-OCR pourrait résoudre les problèmes liés aux « segmenteurs de mots » ou tokeniseurs traditionnels. Il a fait valoir que les segmenteurs de mots sont « laids et autonomes », introduisent des problèmes d’Unicode et de codage d’octets et peuvent même augmenter les risques de sécurité. Il considère l’OCR comme l’une des nombreuses tâches de texte visuel, suggérant que les tâches de texte en texte pourraient être converties en tâches de texte visuel, mais pas l’inverse. Ce sentiment a été repris par Xie Saining, professeur adjoint à l’Université de New York, qui était d’accord avec le point de vue de Karpathy sur l’intégration de la vision par ordinateur et du traitement du langage naturel.

Comment accéder à DeepSeek-OCR

Le modèle DeepSeek-OCR est disponible en tant que projet open source sur GitHub et Visage câlin sous le nom deepseek-ai/DeepSeek-OCR. Le modèle, qui comporte 3 milliards de paramètres, peut être téléchargé et utilisé avec Hugging Face. transformers bibliothèque. Les créateurs ont fourni des exemples de code pour l’inférence sur les GPU NVIDIA, et le référentiel comprend également des conseils pour le traitement PDF et l’accélération des modèles à l’aide de vLLM.

Tags: En vedetterecherche profonde-ocr

Related Posts

CES 2026 : tout ce que HP a annoncé

CES 2026 : tout ce que HP a annoncé

janvier 6, 2026
Amazon emmène Alexa sur le Web avec le lancement d'Alexa.com au CES 2026

Amazon emmène Alexa sur le Web avec le lancement d'Alexa.com au CES 2026

janvier 6, 2026
Google amène Gemini AI dans le salon au CES 2026

Google amène Gemini AI dans le salon au CES 2026

janvier 6, 2026
DeepSeek présente les hyper-connexions à contraintes multiples pour R2

DeepSeek présente les hyper-connexions à contraintes multiples pour R2

janvier 6, 2026
Teradar dévoile le capteur térahertz Summit au CES 2026

Teradar dévoile le capteur térahertz Summit au CES 2026

janvier 6, 2026
Intel dévoile le Core Ultra Series 3 sur 18A au CES 2026

Intel dévoile le Core Ultra Series 3 sur 18A au CES 2026

janvier 6, 2026

Recent Posts

  • L'Imperial College de Londres développe l'IA pour accélérer la découverte de médicaments cardiaques
  • CES 2026 : tout ce que HP a annoncé
  • Amazon emmène Alexa sur le Web avec le lancement d'Alexa.com au CES 2026
  • Google amène Gemini AI dans le salon au CES 2026
  • Kodiak AI s'associe à Bosch pour une plateforme universelle de camions autonomes

Recent Comments

Aucun commentaire à afficher.
Dataconomy FR

COPYRIGHT © DATACONOMY MEDIA GMBH, ALL RIGHTS RESERVED.

  • Home
  • Sample Page

Follow Us

  • Home
  • Sample Page
No Result
View All Result
Subscribe

This website uses cookies. By continuing to use this website you are giving consent to cookies being used. Visit our Privacy Policy.