Dataconomy FR
Subscribe
No Result
View All Result
Dataconomy FR
Subscribe
No Result
View All Result
Dataconomy FR
No Result
View All Result

DeepSeek-OCR : un nouveau modèle d’IA open source devient viral sur GitHub

byKerem Gülen
octobre 21, 2025
in Artificial Intelligence, News
Home Artificial Intelligence
Share on FacebookShare on Twitter

Un nouveau modèle open source nommé DeepSeek-OCR a été publié, bouleversant le paradigme traditionnel des grands modèles. Le modèle, qui était open source hier après-midi, a connu une ascension fulgurante dans la communauté de l’IA, gagnant plus de 4 000 étoiles sur GitHub du jour au lendemain. L’objectif principal de DeepSeek-OCR est une nouvelle approche visuelle de la gestion du texte, qui promet de résoudre l’un des plus grands défis de l’IA : l’efficacité du contexte long.

Comment DeepSeek-OCR change la donne

Le nouveau modèle DeepSeek-OCR n’est pas simplement un autre outil de lecture de texte. Sa puissance réside dans sa capacité à compresser les informations. Selon ses créateurs, le modèle peut prendre un article de 1 000 mots et le compresser en seulement 100 jetons visuels. Cela représente un taux de compression décuplé avec une précision de 97 %. Cette efficacité est remarquable ; un seul GPU NVIDIA A100 peut traiter 200 000 pages de données par jour à l’aide de la méthode DeepSeek-OCR. Cette nouvelle approche de traitement pourrait signaler un changement significatif dans les méthodes de saisie utilisées pour les grands modèles. L’essor rapide de DeepSeek-OCR a été amplifié par des soutiens de haut niveau. Andrej Karpathy, co-fondateur d’OpenAI et ancien directeur du pilote automatique chez Tesla, a partagé son enthousiasme pour le journal. Il a qualifié DeepSeek-OCR de « bon modèle OCR » et a souligné sa « partie la plus intéressante » : le concept d’une IA de vision par ordinateur « se faisant passer pour une personne utilisant le langage naturel ». https://twitter.com/karpathy/status/1980397031542989305 Karpathy pense que cette méthode visuelle d’abord est une entrée supérieure pour les grands modèles de langage. Il a proposé que les LLM utilisent des images comme entrée principale, et même lors du traitement de texte brut, ils devraient d’abord le restituer sous forme d’image. Selon lui, cela entraînerait une compression des informations beaucoup plus élevée et un flux d’informations plus généralisé. Karpathy a également souligné que l’approche DeepSeek-OCR pourrait résoudre les problèmes liés aux « segmenteurs de mots » ou tokeniseurs traditionnels. Il a fait valoir que les segmenteurs de mots sont « laids et autonomes », introduisent des problèmes d’Unicode et de codage d’octets et peuvent même augmenter les risques de sécurité. Il considère l’OCR comme l’une des nombreuses tâches de texte visuel, suggérant que les tâches de texte en texte pourraient être converties en tâches de texte visuel, mais pas l’inverse. Ce sentiment a été repris par Xie Saining, professeur adjoint à l’Université de New York, qui était d’accord avec le point de vue de Karpathy sur l’intégration de la vision par ordinateur et du traitement du langage naturel.

Comment accéder à DeepSeek-OCR

Le modèle DeepSeek-OCR est disponible en tant que projet open source sur GitHub et Visage câlin sous le nom deepseek-ai/DeepSeek-OCR. Le modèle, qui comporte 3 milliards de paramètres, peut être téléchargé et utilisé avec Hugging Face. transformers bibliothèque. Les créateurs ont fourni des exemples de code pour l’inférence sur les GPU NVIDIA, et le référentiel comprend également des conseils pour le traitement PDF et l’accélération des modèles à l’aide de vLLM.

Tags: En vedetterecherche profonde-ocr

Related Posts

SwitchBot dévoile le robot onero H1 et Smart Home 2.0 au CES 2026

SwitchBot dévoile le robot onero H1 et Smart Home 2.0 au CES 2026

janvier 5, 2026
PETKIT dévoile un écosystème de soins pour animaux de compagnie alimenté par l'IA au CES 2026

PETKIT dévoile un écosystème de soins pour animaux de compagnie alimenté par l'IA au CES 2026

janvier 5, 2026
Le robot LG CLOiD vise à mettre fin aux tâches ménagères au CES 2026

Le robot LG CLOiD vise à mettre fin aux tâches ménagères au CES 2026

janvier 5, 2026
CES 2026 : LG Gram Pro 17 fait ses débuts en tant qu'ordinateur portable RTX 17 pouces le plus léger au monde

CES 2026 : LG Gram Pro 17 fait ses débuts en tant qu'ordinateur portable RTX 17 pouces le plus léger au monde

janvier 5, 2026
Plaud lance le preneur de notes NotePin S AI au CES 2026

Plaud lance le preneur de notes NotePin S AI au CES 2026

janvier 5, 2026
La France et la Malaisie enquêtent sur Grok pour deepfakes sexualisés

La France et la Malaisie enquêtent sur Grok pour deepfakes sexualisés

janvier 5, 2026

Recent Posts

  • SwitchBot dévoile le robot onero H1 et Smart Home 2.0 au CES 2026
  • PETKIT dévoile un écosystème de soins pour animaux de compagnie alimenté par l'IA au CES 2026
  • Le robot LG CLOiD vise à mettre fin aux tâches ménagères au CES 2026
  • CES 2026 : LG Gram Pro 17 fait ses débuts en tant qu'ordinateur portable RTX 17 pouces le plus léger au monde
  • Plaud lance le preneur de notes NotePin S AI au CES 2026

Recent Comments

Aucun commentaire à afficher.
Dataconomy FR

COPYRIGHT © DATACONOMY MEDIA GMBH, ALL RIGHTS RESERVED.

  • Home
  • Sample Page

Follow Us

  • Home
  • Sample Page
No Result
View All Result
Subscribe

This website uses cookies. By continuing to use this website you are giving consent to cookies being used. Visit our Privacy Policy.