Brève histoire de la ROC
En
1950, Frank Rowlett, qui avait cassé le code diplomatique
japonais
PURPLE, demanda à David Shepard, un cryptanalyste de l'AFSA (prédécesseur de la
NSA américaine), de travailler avec Louis Tordella pour faire à l'agence des propositions de procédures d'automatisation des données. La question incluait le problème de la conversion de messages imprimés en langage machine pour le traitement informatique. Shepard décida qu'il devait être possible de construire une machine pour le faire, et, avec l'aide de Harvey Cook, un ami, construisit « Gismo » dans son grenier pendant ses soirées et ses week-ends. Le fait fut rapporté dans le
Washington Daily News du 27 avril
1951 et dans le
New York Times du 26 décembre
1953 après le dépôt du
brevet numéro 2 663 758. Shepard fonda alors Intelligent Machines Research Corporation (IMR), qui livra les premiers systèmes de ROC au monde exploités par des sociétés privées. Le premier système privé fut installé au
Reader's Digest en
1955, et, de nombreuses années plus tard, fut offert par le Readers Digest au
Smithsonian, où il fut mis en exposition. Les autres systèmes vendus par IMR à la fin des années 1950 comprenaient un lecteur de bordereau de facturation à l'Ohio Bell Telephone Company et un numériseur (scanner de documents) à l'
US Air Force pour la lecture et la transmission par télex de messages dactylographiés.
IBM et d'autres utilisèrent plus tard les brevets de Shepard.
Depuis 1965, la Poste des États-Unis utilise pour trier le courrier des machines ROC dont le principe de fonctionnement a été imaginé par Jacob Rabinow, un inventeur prolifique. La Poste canadienne utilise des systèmes ROC depuis 1971. Les systèmes ROC lisent le nom et l'adresse du destinataire au premier centre de tri automatisé, et impriment sur l'enveloppe un code-barres fondé sur le code postal. Les lettres n'ont plus qu'à être triées dans les centres suivants par des trieuses moins coûteuses qui n'ont qu'à lire le code-barres. Pour éviter toute interférence avec l'adresse lisible qui peut se trouver n'importe où sur la lettre, une encre spéciale est utilisée, qui est clairement visible sous une lumière UV. Cette encre semble orange dans des conditions d'éclairage normales.
Apprentissage
Les premiers systèmes avaient besoin d'un « apprentissage » (la collecte d'échantillons connus pour chaque caractère) pour lire une
police de caractères donnée. Mais aujourd'hui, il est courant de trouver des systèmes « intelligents » qui peuvent reconnaître la plupart des polices avec un haut niveau de précision.
Fonctionnement
- On part de l'image numérique réalisée par un scanner optique d'une page (document imprimé, feuillet dactylographié, etc.) dont on veut récupérer le texte.
- L'image doit être assez contrastée pour que le programme discerne facilement les caractères. Certains logiciels comportent, en outre, une interface pour l'acquisition numérique de l'image.
- Le principe du programme est de lire le document et, grâce à des bibliothèques de formes, détecter les caractères afin d'en faire correspondre la forme au caractère attendu.
- Des dictionnaires permettent de récupérer certaines erreurs puisque le logiciel se basera alors sur des mots existants pour faire ses comparaisons.
- Certains logiciels vont même tenter de conserver l'enrichissement du texte (corps, graisse et police) ainsi que la mise en page, voire rebâtir les tableaux.
Domaine de recherche
Un problème particulièrement ardu pour les ordinateurs et les humains est celui des anciens registres religieux des baptêmes et des mariages, qui contiennent surtout des noms, où les pages peuvent être endommagées par le temps, l'eau ou le feu, et les noms peuvent être obsolètes ou écrits selon d'anciennes graphies. Les techniques informatiques de traitement de l'image peuvent aider les humains dans la lecture de textes extrêmement difficiles, comme le
palimpseste d'Archimède ou les
manuscrits de Qumrân. Des approches coopératives où les ordinateurs assistent les humains et vice-versa constituent un domaine de recherche intéressant.
La reconnaissance de caractère est un domaine actif de recherche pour la science informatique depuis la fin des années 1950. Au début, on pensait qu'il s'agissait d'un problème facile, mais il apparut qu'il s'agissait d'un sujet beaucoup plus intéressant. Il faudra encore de nombreuses décennies aux ordinateurs, s'ils y parviennent un jour, pour lire tous les documents avec la même précision que les êtres humains.
Quelques logiciels de reconnaissance optique de caractères
Logiciels commerciaux
- Cogestar, Editeur d'outils de production basé sur l'OCR
- FineReader
de Abbyy, société russe, leader mondial des logiciels d'OCR
- Readiris
de I.R.I.S., société belge, logiciel précis, OCR en Arabe, Persan, Hébreu et langues asiatiques, intégration très complexe.
- NEOPTEC
Editeur de logiciel, Acquisition automatique de données par scanner
- OmniPage
de Nuance (ex Scansoft), société américaine
- CVISION PdfCompressor
société américaine, très précis
- Intelliant OCR
d'Intelliant (France), basé sur Tiger OCR
- BIT-Alpha
de Bureau Ingénieur Tomasi (France)
Voir comparatif détaillé de 01net 
Clara OCR
DocMgr
(Unix)
FreePress
(Windows)
GOCR
(Unix, Windows)
Ocrad
(Unix)
Ocre
(Unix)
OCRopus (Unix)
Tesseract (Unix, Windows)
Gamera
(Unix, Windows)