Un nouveau modèle open source nommé DeepSeek-OCR a été publié, bouleversant le paradigme traditionnel des grands modèles. Le modèle, qui était open source hier après-midi, a connu une ascension fulgurante dans la communauté de l’IA, gagnant plus de 4 000 étoiles sur GitHub du jour au lendemain. L’objectif principal de DeepSeek-OCR est une nouvelle approche visuelle de la gestion du texte, qui promet de résoudre l’un des plus grands défis de l’IA : l’efficacité du contexte long.
Comment DeepSeek-OCR change la donne
Le nouveau modèle DeepSeek-OCR n’est pas simplement un autre outil de lecture de texte. Sa puissance réside dans sa capacité à compresser les informations. Selon ses créateurs, le modèle peut prendre un article de 1 000 mots et le compresser en seulement 100 jetons visuels. Cela représente un taux de compression décuplé avec une précision de 97 %. Cette efficacité est remarquable ; un seul GPU NVIDIA A100 peut traiter 200 000 pages de données par jour à l’aide de la méthode DeepSeek-OCR. Cette nouvelle approche de traitement pourrait signaler un changement significatif dans les méthodes de saisie utilisées pour les grands modèles. L’essor rapide de DeepSeek-OCR a été amplifié par des soutiens de haut niveau. Andrej Karpathy, co-fondateur d’OpenAI et ancien directeur du pilote automatique chez Tesla, a partagé son enthousiasme pour le journal. Il a qualifié DeepSeek-OCR de « bon modèle OCR » et a souligné sa « partie la plus intéressante » : le concept d’une IA de vision par ordinateur « se faisant passer pour une personne utilisant le langage naturel ». https://twitter.com/karpathy/status/1980397031542989305 Karpathy pense que cette méthode visuelle d’abord est une entrée supérieure pour les grands modèles de langage. Il a proposé que les LLM utilisent des images comme entrée principale, et même lors du traitement de texte brut, ils devraient d’abord le restituer sous forme d’image. Selon lui, cela entraînerait une compression des informations beaucoup plus élevée et un flux d’informations plus généralisé. Karpathy a également souligné que l’approche DeepSeek-OCR pourrait résoudre les problèmes liés aux « segmenteurs de mots » ou tokeniseurs traditionnels. Il a fait valoir que les segmenteurs de mots sont « laids et autonomes », introduisent des problèmes d’Unicode et de codage d’octets et peuvent même augmenter les risques de sécurité. Il considère l’OCR comme l’une des nombreuses tâches de texte visuel, suggérant que les tâches de texte en texte pourraient être converties en tâches de texte visuel, mais pas l’inverse. Ce sentiment a été repris par Xie Saining, professeur adjoint à l’Université de New York, qui était d’accord avec le point de vue de Karpathy sur l’intégration de la vision par ordinateur et du traitement du langage naturel.
Comment accéder à DeepSeek-OCR
Le modèle DeepSeek-OCR est disponible en tant que projet open source sur GitHub et Visage câlin sous le nom deepseek-ai/DeepSeek-OCR. Le modèle, qui comporte 3 milliards de paramètres, peut être téléchargé et utilisé avec Hugging Face. transformers bibliothèque. Les créateurs ont fourni des exemples de code pour l’inférence sur les GPU NVIDIA, et le référentiel comprend également des conseils pour le traitement PDF et l’accélération des modèles à l’aide de vLLM.





