OCR jpg
Gescannte Dokumente und Bilder in bearbeitbare Word-, PDF-, Excel- und Txt-(Text)-Ausgaben konvertieren formate
Wie erkenne ich Text?
Datei hochladen
Sprache und Ausgabeformat auswählen
Konvertieren
Optische Zeichenerkennung
Optische Zeichenerkennung oder Optical Character Recognition (OCR) bezieht sich auf die elektronische oder mechanische Umwandlung von Bildern von maschinengeschriebenem, handgeschriebenem oder gedrucktem Text in maschinell lesbaren Text. Das gilt für gescannte Dokumente, Fotos von Dokumenten, Szenenfotos (z.B. Text auf Schildern und Plakaten in einem Landschaftsfoto) sowie für Untertiteltexte, die über einem Bild angezeigt werden (z.B. aus einer Fernsehsendung).
Als eine Form der Dateneingabe aus Papierdatensätzen, sei es Passdokumente, Rechnungen, Kontoauszüge, computergestützte Quittungen, Visitenkarten, Post, Ausdrucke von statischen Daten oder geeignete Dokumentation, ist OCR eine gängige Methode, gedruckte Texte zu digitalisieren. Dadurch können sie elektronisch bearbeitet, durchsucht, platzsparend gespeichert, online angezeigt und in maschinellen Prozessen wie Cognitive Computing, maschineller Übersetzung, (extrahiertem) Text-to-Speech, Schlüsseldaten und Text Mining verwendet werden. OCR ist weit verbreitet und wird in der Forschung zur Mustererkennung, künstlichen Intelligenz und Computer Vision eingesetzt.
In früheren Versionen mussten Bilder von jedem Zeichen trainiert und für jede Schriftart separat verarbeitet werden. Heutzutage sind fortgeschrittene Systeme üblich, die für die meisten Schriftarten eine hohe Erkennungsgenauigkeit erzielen können und eine Vielzahl digitaler Bilddateiformate als Eingabe unterstützen. Einige Systeme können sogar eine formatierte Ausgabe reproduzieren, die der Originalseite sehr ähnlich ist, einschließlich Bilder, Spalten und anderen nicht-textuellen Elementen.