Warum alte Dokumente mit OCR verarbeiten?

OCR eröffnet den Zugang zum kulturellen Erbe

  • Technologien für Text-basierte Suche können mit gescannten, alten Dokumenten erst arbeiten, nachdem OCR angewendet wurde.
    • Erst OCR erlaubt einen besseren Zugang zu historischen Dokumenten und Büchern
  • Nach Anwendung der OCR sind historische Texte einfacher zu lesen
  • Umwandlung in „moderne“ digitale Formate wie
    • XML - mit Meta-Informationen, wie Informationen zu Layout
    • Durchsuchbare PDFs
    • E-Books
  • Nach Anwendung der OCR können Texte wiederverwendet werden, z. B.
    • erneuter Druck
    • Online Zugang

Wissen aus historischen Quellen ist wichtig für moderne Wissenschaften

  • Wissenschaftler, Bibliothekare und Nutzer können ihre Systeme zum Auffinden von Informationen erweitern und Referenzen/Verknüpfungen zu detaillierteren Informationen erstellen, beispielsweise in einem Buch:
    • Paragraphen oder Sätze oder Wörter können direkt angegeben und verbunden werden – anstatt „lediglich“ Ausgabe, Seite und Paragraph anzugeben
    • der benötigte Text kann über Volltextsuche gefunden werden
  • Direkter Vergleich von Büchern/Dokumenten/Artikeln, die nebeneinander auf den Bildschirm angesehen werden können, eröffnet neue Möglichkeiten und Vorteile für die wissenschaftliche Arbeit

Unterschiede in verschiedenen Schrifttypen

Die Abbildung zeigt die Unterschiede zwischen Bögen einer „runden“ und „gebrochenen“ Schrift. Es wird sehr deutlich, warum „alte“ Schriften heute sehr ungewohnt und daher auch für uns Menschen schwer zu lesen sind.

Image Source: http://de.wikipedia.org/wiki/Gebrochene_Schrift

Weitere Informationen über Frakturschrift auf Wikipedia


Zurück zu: Fraktur OCR - Ein Überblick