Hier eine kurze Liste von Gründen, warum die OCR für historische Texte eine wirkliche Herausforderung darstellt.
Bildqualität
Layouterkennung
Historische Bücher/Dokumente haben oft eine andere Layoutstruktur als moderne Texte.
Spezielle Algorithmen, die für die Erkennung von modernen Layout entwickelt wurde, liefern auf alten Dokumenten keine zufriedenstellenden Ergebnisse.
Alte Zeitungen sind manchmal eine wahre Herausforderung

Kleine Schriften
Komplexe Layouts
Lese-Reihenfolge
Verwendete Typo
Alte Schriftarten werden verwendet - Standard OCR-Lösungen können keine Fraktur-Schriften erkennen
Die Qualität der Buchstaben ist zu schlecht
Für die auf alten Dokumenten verwendeten Schrifttypen gibt es keine Pendants in modernen Computerschriften

Probleme durch die alte Sprache
Da es zur Entstehung der Dokumente keine einheitliche Rechtschreibung gab, variiert die Schreibweise einzelner Wörter zum Teil erheblich
Es gibt keine historischen Wörterbücher
Weitere Informationen:
Quellen: Die Bilder stammen aus den verlinken Präsentationen.