Wie kann man die OCR-Qualität verbessern?

Wie kann man die OCR-Qualität verbessern?

Stellen Sie sich vor, Sie sind eines der intelligentesten Wesen der Welt. Menschen aus der ganzen Welt kommen mit ihren Fragen zu Ihnen, und Sie können fast alle davon beantworten. Eines Tages kommt jemand mit einem Buch in der Hand zu Ihnen. Kannst du es mir vorlesen?", fragt er. Du schlägst das Buch auf und fängst an zu murmeln ... 'Die Hone stand auf einer kleinen Anhöhe direkt am Rande des Weinbergs.'

Für den Computer und das Mobiltelefon, die Sie jeden Tag benutzen, ist dies eine Realität. Mit Zugang zum Internet können sie Ihnen bei der Lösung der meisten Ihrer Probleme helfen. Allerdings ist es für einen Computer erstaunlich schwierig, Text von einem Bild zu lesen.

Die Erkennung von Schriftzeichen, die das menschliche Auge von klein auf beherrscht, wird als Optical Character Recognition (OCR) bezeichnet. In manchen Fällen ist der Computer bei der OCR recht gut, zum Beispiel wenn die Dokumente vor der Digitalisierung sorgfältig vorbereitet wurden. In der realen Geschäftswelt ist das jedoch nicht immer der Fall.

Deshalb haben wir beschlossen, es intelligenter zu machen. Wir sind der Meinung, dass die Faustregel lauten sollte: Wenn ein Dokument für das menschliche Auge lesbar ist, sollte es von unserer OCR-Lösung verarbeitet werden.

Ein Blick auf die schiere Menge an Inhalten, die auf Unternehmensebene verarbeitet werden, zeigt sofort, dass eine geeignete OCR-Lösung viele Vorteile bietet. Wir sehen viele Dokumente, die mit einer niedrigen Auflösung gescannt wurden. Manchmal sind die Originaldokumente nicht auffindbar, und in der Regel ist ein erneutes Scannen mit viel Aufwand verbunden.

Anständige Open-Source-OCR-Lösungen sind bereits verfügbar. Die Qualität des von ihnen erzeugten Textes ist jedoch für Unternehmensstandards immer noch zu niedrig. Daher führen wir einen Nachbearbeitungsschritt ein.

Die OCR-Engine übernimmt die anfängliche OCR und unser benutzerdefinierter Post-OCR-Algorithmus lernt aus Ihren Inhalten und führt die entsprechenden Korrekturen durch. Unsere Lösung kann so trainiert werden, dass sie bei spezifischen Wörtern für jedes Unternehmen effektiver ist.

Ein typischer Fehler der OCR ist die Verwechslung ähnlicher Buchstaben. Zum Beispiel wird ein "j" anstelle eines "i" gelesen. Mit einigen Kenntnissen der englischen Sprache lässt sich jedoch leicht feststellen, dass "fjsh" nicht korrekt ist und wahrscheinlich als "fish" gelesen werden sollte. In unserem Post-OCR-Schritt machen wir uns dies zunutze.

Da wir wissen, welche Art von Fehlern die OCR-Maschine wahrscheinlich macht, können wir unseren Algorithmus so optimieren, dass er sich auf diese Fehler konzentriert. Die Wörter "Onior", "amor", "aural" und "pillar" mögen für uns sehr unterschiedlich aussehen, aber für die OCR-Lösung sehen sie recht ähnlich aus. Alle vier beginnen mit einem runden Zeichen, gefolgt von scheinbar drei Balken, dann ein weiteres rundes Zeichen, gefolgt von einem weiteren Balken.

Unter Berücksichtigung so vieler statistischer Informationen wie möglich verwenden wir die Ähnlichkeit der Zeichen und Wörter, um Wörter zu korrigieren, die während des OCR-Prozesses falsch verarbeitet zu werden scheinen. Wir berücksichtigen auch benachbarte Wörter, schließlich ist "Danke für die vielen Fische" plausibler als "Danke für die vielen Fische".

Bei ProcessMaker IDP geht es um intelligentes Content Management. Wir bieten innovative Lösungen an, und Post-OCR ist Teil einer größeren Kette von Machine Learning-Lösungen, die verfügbar sind. Indem wir diese Lösung selbst entwickeln, stellen wir sicher, dass wir über eine Spitzenqualität verfügen, die in hohem Maße an die Bedürfnisse unserer Kunden angepasst werden kann. Darüber hinaus ermöglicht dies eine einfache Integration mit anderen intelligenten Komponenten in ProcessMaker IDP. Und das zu einem geringeren Preis als einige der derzeit verfügbaren Lösungen!

Wir werden nun einige der Post-OCR in Aktion zeigen. Nehmen wir an, wir verarbeiten ein Dokument, das mit einer relativ niedrigen Auflösung gescannt wurde. Es ist noch lesbar, und die OCR-Engine kann die OCR durchführen, aber es bleiben immer noch hinderliche Fehler.

Wenn wir unseren Algorithmus auf einen historischen Zeitungsartikel anwenden, sehen wir einige typische OCR-Fehler, wie gezeigt. Die Fehler lassen sich mit Post-OCR leicht korrigieren. Fehlende Zeichen oder von der OCR-Engine falsch gelesene Zeichen sind kein Problem. Da 'Reginald' in den Trainingsdaten beobachtet wurde, war Post-OCR sogar in der Lage, diesen Namen zu korrigieren. Durch weiteres Training an ähnlichen Dokumenten wird Post-OCR noch robuster, da das statistische Wissen über das Feld zunimmt.

Zusätzlich zu einem Post-OCR-Basispaket können weitere Inhalte einfach hinzugefügt werden. Sprachunterstützung für jede alphabetisch geordnete Sprache zum Beispiel. Ein Bootstrap, so dass die Lösung zum Zeitpunkt der Bereitstellung bereits abgestimmt ist, oder ein besser auf Ihre Bedürfnisse abgestimmtes Wörterbuch. Da unsere Post-OCR-Lösung vollständig intern entwickelt wird, haben wir die volle Kontrolle.

Die Entwicklung unseres Post-OCR-Algorithmus stellte uns vor mehrere Herausforderungen. Das Problem ist linguistischer Natur, aber um es effizient zu implementieren, mussten wir auch die Rechenkomplexität angemessen halten. Als Team für maschinelles Lernen bei Onior sind wir in diesem Bereich besonders gut. Wir haben alle unsere Fähigkeiten kombiniert, um neue, innovative Ideen zu entwickeln und sie als effiziente Lösungen zu implementieren.

Mit den von uns entwickelten Post-OCR-Tools und dem richtigen Maß an Schulung gelang es uns, die Fähigkeiten herkömmlicher OCR-Systeme zu verbessern. Am Ende haben wir dem Computer eine Aufgabe beigebracht, die uns einfach erscheint, ihm aber schwerfällt. Jetzt wird er in der Lage sein, ohne zu nuscheln zu lesen:

Das Haus stand auf einer leichten Anhöhe am Rande des Dorfes...

Checkliste für BPA-Käufer
Demo anfordern

Demo anfordern

Erfahren Sie, wie führende Unternehmen ProcessMaker einsetzen, um ihre Abläufe durch Prozessautomatisierung zu rationalisieren.

Demo anfordern

Demo anfordern

Datenschutz-Update
Wir verwenden Cookies, um die Interaktion mit unserer Website und unseren Dienstleistungen einfach und sinnvoll zu gestalten. Cookies helfen uns, besser zu verstehen, wie unsere Website genutzt wird, und die Werbung entsprechend anzupassen.

Akzeptieren