Die Herausforderungen bei der OCR von historischen Dokumenten

Hier eine kurze Liste von Gründen, warum die OCR für historische Texte eine wirkliche Herausforderung darstellt.

Bildqualität

  • Scans von alten Dokumenten sind oft mangelhaft, eine gute Scanqualität ist jedoch entscheidend für eine gute OCR. Probleme:
    • Gewelltes Papier
    • Papierseiten sind verklebt
    • Verschachtelte Layouts
    • Gebogene Textzeilen, wenn vorliegende Dokumente vorsichtig behandelt werden müssen und nicht ganz geöffnet werden können

Layouterkennung

  • Historische Bücher/Dokumente haben oft eine andere Layoutstruktur als moderne Texte.
    Spezielle Algorithmen, die für die Erkennung von modernen Layout entwickelt wurde, liefern auf alten Dokumenten keine zufriedenstellenden Ergebnisse.
  • Alte Zeitungen sind manchmal eine wahre Herausforderung :-(
    • Kleine Schriften
    • Komplexe Layouts
    • Lese-Reihenfolge

Verwendete Typo

  • Alte Schriftarten werden verwendet - Standard OCR-Lösungen können keine Fraktur-Schriften erkennen
  • Die Qualität der Buchstaben ist zu schlecht
    • Unvollständige Zeichen
    • Vermischt mit Dreck, Anmerkungen oder Scanrauschen
  • Für die auf alten Dokumenten verwendeten Schrifttypen gibt es keine Pendants in modernen Computerschriften

Probleme durch die alte Sprache

  • Da es zur Entstehung der Dokumente keine einheitliche Rechtschreibung gab, variiert die Schreibweise einzelner Wörter zum Teil erheblich
  • Es gibt keine historischen Wörterbücher

Weitere Informationen:

Quellen: Die Bilder stammen aus den verlinken Präsentationen.

Um die Funktionalität der Webseite zu optimieren und Ihnen das Surfen bei uns so komfortabel wie möglich zu gestalten, verwendet ABBYY Cookies. Indem Sie mit der Nutzung dieser Seite fortfahren, stimmen Sie der Verwendung der Cookies zu.