tesseract

Python-tesseract est un outil de reconnaissance optique de caractères (OCR) pour Python, c'est à dire un logiciel capable de reconnaître du texte à partir d'une image. Python-tesseract  utilise le moteur Tesseract-OCR de Google. Il peut lire tous les types d'images pris en charge par Python Imaging Library (PIL).

Installation

tesseract-OCR

tesseract-OCR est le "moteur" de l'OCR, il ne s'agit pas d'un module Python, mais il est utilisé par le module pytesseract . Tous les renseignements sont disponibles sur la page https://github.com/tesseract-ocr/tesseract/wiki , mais voici quand même un petit résumé :

Sous Linux

En principe, sur les distributions les plus courantes de Linux, tesseract-OCR est déjà installé, sous le nom 'tesseract' ou bien 'tesseract-ocr'. Dans le cas contraire, se reporter au gestionnaire de paquets de la distribution.

Sous Windows

Selon les cas, la procédure sous Windows est plus ou moins complexe...

Le contenu de {Dossier de Python}\Lib\site-packages\pytesseract devrait alors ressembler à ça :

 

pytesseract

pytesseract  est le module Python qui permet d'utiliser l'OCR avec Python. Depuis le dossier contenant l'application pip (sous Windows, il s'agit du dossier {Dossier de Python}\scripts) ou bien depuis la fenêtre de commande de Python3 : Si tout s'est bien passé, voici ce qui devrait s'afficher : Il se peut qu'il y ai besoin d'utiliser une version de pytesseract encore plus récente que celle prévue dans le package de pip. (erreur TypeError: a bytes-like object is required, not 'str' ). Dans ce cas il faut remplacer le fichier pytesseract.py par la dernière version du dépôt des sources : Depuis https://github.com/madmaze/pytesseract, faire Clone or Dowload puis Download ZIP,et dézipper le tout pour retrouver pytesseract.py. ou bien télécharger directement https://github.com/madmaze/pytesseract/blob/master/src/pytesseract.py  

Exemple simple

Cet exemple utilise la bibliothèque PIL pour ouvrir et pré-traiter l'image contenant le texte à reconnaitre. Avec l'image suivante (cliquer pour télécharger), ... ... le résultat donné par tesseract est :
Linformatique, cest fantastique ! Bienvenue sur le site dédié a de l'informatique au lycée Blaise Pascal de Clermont Ferrand
Presque bon !

Vous aimerez aussi...

1 réponse

  1. Olivier GUNTERN dit :

    MERCI !!!

Laisser un commentaire

Votre adresse de messagerie ne sera pas publiée. Les champs obligatoires sont indiqués avec *

*

code