Die Herausforderungen bei der OCR von historischen Dokumenten

Hier eine kurze Liste von Gründen, warum die OCR für historische Texte eine wirkliche Herausforderung darstellt.

Bildqualität

  • Scans von alten Dokumenten sind oft mangelhaft, eine gute Scanqualität ist jedoch entscheidend für eine gute OCR. Probleme:
    • Gewelltes Papier
    • Papierseiten sind verklebt
    • Verschachtelte Layouts
    • Gebogene Textzeilen, wenn vorliegende Dokumente vorsichtig behandelt werden müssen und nicht ganz geöffnet werden können

Layouterkennung

  • Historische Bücher/Dokumente haben oft eine andere Layoutstruktur als moderne Texte.
    Spezielle Algorithmen, die für die Erkennung von modernen Layout entwickelt wurde, liefern auf alten Dokumenten keine zufriedenstellenden Ergebnisse.
  • Alte Zeitungen sind manchmal eine wahre Herausforderung :-(
    • Kleine Schriften
    • Komplexe Layouts
    • Lese-Reihenfolge

Verwendete Typo

  • Alte Schriftarten werden verwendet - Standard OCR-Lösungen können keine Fraktur-Schriften erkennen
  • Die Qualität der Buchstaben ist zu schlecht
    • Unvollständige Zeichen
    • Vermischt mit Dreck, Anmerkungen oder Scanrauschen
  • Für die auf alten Dokumenten verwendeten Schrifttypen gibt es keine Pendants in modernen Computerschriften

Probleme durch die alte Sprache

  • Da es zur Entstehung der Dokumente keine einheitliche Rechtschreibung gab, variiert die Schreibweise einzelner Wörter zum Teil erheblich
  • Es gibt keine historischen Wörterbücher

Weitere Informationen:

Quellen: Die Bilder stammen aus den verlinken Präsentationen.