Comment améliorer la qualité de l'OCR ?

Imaginez que vous êtes l'un des êtres les plus intelligents de la planète. Des gens du monde entier viennent vous poser leurs questions et vous pouvez répondre à presque toutes. Un jour, quelqu'un vient vous voir en tenant un livre. Il vous demande : "Pouvez-vous me le lire ?". Vous ouvrez le livre et vous commencez à marmonner ... "Le chevalier se tenait sur une élévation glissante, juste sur le bord du vinage".

Pour l'ordinateur et le téléphone portable que vous utilisez tous les jours, c'est une réalité. Grâce à l'accès à l'internet, ils peuvent vous aider à résoudre la plupart de vos problèmes. Cependant, il est étonnamment difficile pour un ordinateur de lire du texte sur une image.

L'identification des caractères, que l'œil humain peut faire dès son plus jeune âge, est appelée reconnaissance optique de caractères (ROC). Dans certains cas, l'ordinateur obtient des résultats raisonnables en matière d'OCR, par exemple si les documents ont été soigneusement préparés avant d'être numérisés. Cependant, dans l'environnement réel des entreprises, ce n'est pas toujours le cas.

C'est pourquoi nous avons décidé de le faire plus intelligemment. Nous pensons que la règle générale devrait être que si un document est lisible à l'œil nu, il devrait être traité par notre solution OCR.

Il suffit de regarder le volume de contenu traité au niveau de l'entreprise pour comprendre qu'une solution d'OCR appropriée présente de nombreux avantages. Nous voyons de nombreux documents qui ont été numérisés à une faible résolution. Parfois, les documents originaux ne sont pas traçables et, en général, une nouvelle numérisation demande beaucoup d'efforts.

Des solutions OCR open source décentes sont déjà disponibles. Cependant, la qualité du texte qu'elles produisent est encore trop faible pour les normes d'entreprise. C'est pourquoi nous introduisons une étape de post-traitement.

Le moteur d'OCR se charge de l'OCR initiale et notre algorithme Post-OCR personnalisé apprend de votre contenu et effectue les corrections adéquates. Notre solution peut être formée pour être plus efficace sur les mots spécifiques à toute entreprise.

Une erreur typique de l'OCR est la confusion de lettres similaires. Par exemple, un 'j' est lu à la place d'un 'i'. Cependant, avec une certaine connaissance de la langue anglaise, il est facile de comprendre que "fjsh" n'est pas correct et devrait probablement être lu comme "fish". Dans notre étape Post-OCR, nous tirons parti de cette possibilité au maximum.

Puisque nous savons quel type d'erreurs le moteur d'OCR est susceptible de commettre, nous pouvons optimiser notre algorithme pour qu'il se concentre sur ces erreurs. Les mots "Onior", "amor", "aural" et "pillar" peuvent nous sembler très différents, mais ils sont très similaires pour la solution OCR. Tous les quatre commencent par un caractère rond, suivi de ce qui semble être trois barres, puis d'un autre caractère rond, suivi d'une autre barre.

En tenant compte de toutes les informations statistiques que nous pouvons collecter, nous utilisons la similarité des caractères et des mots pour corriger les mots qui semblent avoir été traités de manière incorrecte au cours du processus d'OCR. Nous prenons également en compte les mots voisins, après tout, "merci pour tous les poissons" est plus plausible que "merci beaucoup tous les poissons".

ProcessMaker IDP s'occupe de la gestion intelligente du contenu. Nous proposons des solutions innovantes et Post-OCR fait partie d'une chaîne plus large de solutions d'apprentissage automatique qui sont disponibles. En construisant nous-mêmes cette solution, nous nous assurons de disposer d'une qualité de haut niveau qui s'adapte parfaitement aux besoins de nos clients. En outre, cela permet une intégration facile avec d'autres composants intelligents de ProcessMaker IDP. Et ce, pour un prix inférieur à celui de certaines des solutions actuellement disponibles !

Nous allons maintenant montrer une partie du Post-OCR en action. Supposons que nous traitions un document qui a été numérisé à une résolution relativement faible. Il est encore lisible par l'homme, et le moteur d'OCR peut effectuer l'OCR dessus, mais il reste encore des erreurs obstructives.

Lorsque nous appliquons notre algorithme à un article de journal historique, nous voyons quelques erreurs typiques de l'OCR, comme indiqué. Ces erreurs sont facilement corrigées par Post-OCR. Les caractères manquants ou les caractères mal lus par le moteur OCR ne posent aucun problème. Comme 'Reginald' a été observé dans les données d'entraînement, Post-OCR a même été capable de corriger ce nom. Un entraînement supplémentaire sur des documents similaires rendra Post-OCR encore plus robuste à mesure que les connaissances statistiques sur le domaine augmentent.

En plus d'un paquet Post-OCR de base, il est facile d'ajouter du contenu supplémentaire. Un support linguistique pour chaque langue alphabétique, par exemple. Un bootstrap pour que la solution soit déjà adaptée au moment du déploiement ou un dictionnaire mieux adapté à vos besoins. Comme notre solution Post-OCR est entièrement développée en interne, nous en avons le contrôle total.

Le développement de notre algorithme Post-OCR nous a posé plusieurs défis. Le problème est de nature linguistique, mais pour une mise en œuvre efficace, nous devions également maintenir une complexité de calcul raisonnable. En tant qu'équipe d'apprentissage automatique d'Onior, c'est là que nous excellons. Nous avons combiné toutes nos compétences pour trouver des idées nouvelles et innovantes et les mettre en œuvre sous forme de solutions efficaces.

Grâce aux outils post-OCR que nous avons créés et à une formation adéquate, nous avons réussi à améliorer les capacités des systèmes OCR traditionnels. Au final, nous avons enseigné à l'ordinateur une tâche qui nous semble simple mais qui lui est difficile à réaliser. Il sera désormais capable de lire sans marmonner :

La maison se trouvait sur une légère élévation, juste à la limite du village...

Comment améliorer la qualité de l'OCR ?

Matt McClintock 11 février 2020 Automatisation intelligente Traitement intelligent des documents (IDP)

Contenu connexe

Le traitement intelligent des documents peut-il stimuler l'hyperproductivité ?

Les 5 principaux cas d'utilisation de l'IDP

Libérez le véritable potentiel de vos données non structurées grâce à l'IA

Demander une démo