tesseract

Python-tesseract est un outil de reconnaissance optique de caractères (OCR) pour Python, c’est à dire un logiciel capable de reconnaître du texte à partir d’une image.

Python-tesseract  utilise le moteur Tesseract-OCR de Google. Il peut lire tous les types d’images pris en charge par Python Imaging Library (PIL).

Installation

tesseract-OCR

tesseract-OCR est le « moteur » de l’OCR, il ne s’agit pas d’un module Python, mais il est utilisé par le module pytesseract .

Tous les renseignements sont disponibles sur la page https://github.com/tesseract-ocr/tesseract/wiki , mais voici quand même un petit résumé :

Sous Linux

En principe, sur les distributions les plus courantes de Linux, tesseract-OCR est déjà installé, sous le nom ‘tesseract’ ou bien ‘tesseract-ocr’. Dans le cas contraire, se reporter au gestionnaire de paquets de la distribution.

Sous Windows

Selon les cas, la procédure sous Windows est plus ou moins complexe…

Le contenu de {Dossier de Python}\Lib\site-packages\pytesseract devrait alors ressembler à ça :

 

pytesseract

pytesseract  est le module Python qui permet d’utiliser l’OCR avec Python.

Depuis le dossier contenant l’application pip (sous Windows, il s’agit du dossier {Dossier de Python}\scripts) ou bien depuis la fenêtre de commande de Python3 :

Si tout s’est bien passé, voici ce qui devrait s’afficher :

Il se peut qu’il y ai besoin d’utiliser une version de pytesseract encore plus récente que celle prévue dans le package de pip. (erreur TypeError: a bytes-like object is required, not 'str' ). Dans ce cas il faut remplacer le fichier pytesseract.py par la dernière version du dépôt des sources :

Depuis https://github.com/madmaze/pytesseract, faire Clone or Dowload puis Download ZIP,et dézipper le tout pour retrouver pytesseract.py.

ou bien télécharger directement https://github.com/madmaze/pytesseract/blob/master/src/pytesseract.py

 

Exemple simple

Cet exemple utilise la bibliothèque PIL pour ouvrir et pré-traiter l’image contenant le texte à reconnaitre.

Avec l’image suivante (cliquer pour télécharger), …

… le résultat donné par tesseract est :

Linformatique, cest fantastique !

Bienvenue sur le site dédié a de
l’informatique au lycée Blaise Pascal de Clermont
Ferrand

Presque bon !

Vous aimerez aussi...

Laisser un commentaire

Votre adresse de messagerie ne sera pas publiée. Les champs obligatoires sont indiqués avec *

*

code