Praktische Anwendung der OCR-Recherche

Mögliche Schwierigkeiten bei der Erkennung des Fließtextes

Eine optische Zeichenerkennung (OCR) vor allem historischer Druckschriften wird kein zu 100% korrektes Ergebnis erbringen. Dies hat unterschiedliche Gründe: die Graphie des Textes (Antiqua oder Fraktur) spielt eine Rolle; die Qualität der Vorlage von der gescannt wurde (historische Zeitungsseiten können schlecht erhalten, schadhaft, faltig oder wellig sein); die Verfilmung des Originals war von keiner optimalen Qualität ... Alle diese Faktoren können dazu führen, dass einzelne oder mehrere Buchstaben von der OCR falsch gelesen und interpretiert werden – und dann in dieser falschen Erkennung im durchsuchbaren Volltext erscheinen

Spezifika der Wochenblätter der VG-Montabaur und Vorgänger

Insbesondere die jüngeren Jahrgänge der Wochenblätter aus den 1980 er und noch mehr den 1990 er Jahren wurden zu einer Zeit, als eine Digitalisierung noch lange nicht auf der Agenda stand, nach heutigen Maßstäben zu dick gebunden. Da die Wochenblätter mit jedem Jahrgang umfangreicher wurden (in den 1980 er Jahren umfassten sie bereits rund 2.000 Scans pro Jahrgang / in den späten 1990 er Jahren ca. 4.000 Scans pro Jahrgang), teils aber sogar nach Halbjahren gebunden waren, mussten etliche Jahrgänge ausgebunden werden, um sie zu scannen. Bei den Jahrgängen, bei denen die Buchstabenfolge nahe des Bundstegs nicht ganz so undeutlich zu erkennen war, sahen wir allerdings von einer Ausbindung ab. Wie am hier illustrierten Beispiel des Wochenblattes vom 6. Mai 1988 zu sehen, in dem die 100-jährige Jubiläumsfeier des Westerwaldvereins angekündigt wurde, können oft 3-4 Buchstaben nahe des Bundstegs von der OCR nicht erkannt werden, siehe Aufga-[...]eldern, Früh [...]treffen.

Beispiel
Foto: Grenzen der OCR-Erkennung aufgrund nicht vorhandener Buchstaben am Bundsteg

Wir haben allerdings nur in Fällen von der Ausbindung der Wochenblätter abgesehen, in denen sich unserer Auffassung nach der Inhalt aus dem Zusammenhang vollständig erschließt! Auch bei einigen der ausgebundenen Ausgaben sind einzelne Buchstaben an den Seitenrändern abgeschnitten. Die Gründe sind vielfältig und reichen von Problemen mit Leim bei der Ausbindung über Druckfehler und vieles mehr. Auch stieß die automatische Volltexterkennung (OCR) manchmal aufgrund von schlechter Druckqualität der analogen Ausgaben an ihre Grenzen.

Druckfehler bei der Datierung von Ausgaben sind uns auch vereinzelt aufgefallen und von unserem Team - auch für die Endnutzerinnen und Endnutzerinnen sichtbar - entsprechend vermerkt worden.

Grundlagen der Suche in den Zeitungen

Sie können nach einzelnen Wörtern, nach mehreren Suchbegriffen oder nach Phrasen suchen; Groß- oder Kleinschreibung der Wörter wird nicht berücksichtigt.

Exakte Suche

Soll nach genau einem Wort in dieser Form gesucht werden, wird es in doppelte Anführungszeichen gesetzt: Die Suche nach "Gott" findet nur Gott und keine Treffer für Gottesmutter, Gottvater, etc. Gleiches gilt im umgekehrten Sinne für "Gottesmutter". Bei dieser Suche wird nur der Terminus Gottesmutter und nicht Gott oder Gottvater gefunden. Auch Umlaute werden berücksichtigt!

Exakte Suche nach Personenamen

Bei der Suche z. B. nach (Personen-)Namen lässt sich das Stemming der Phrasensuche mit einem Ausrufezeichen unterdrücken: Soll der exakte Name des Montabaurer Ehrenbürgers und ehemaligen Bundestagsmitglieds (MdB) August Kunst gefunden werden, wird so gesucht: "August Kunst"! Auch mehr oder weniger längere Phrasen werden so gefunden: "auf der Versammlung"! findet ausschließlich diese Phrase.

Unscharfe Suche

Eine unscharfe Suche ist eine Suche mit einem oder mehreren Wörtern, die nicht in doppelte Anführungszeichen gesetzt werden. Bei dieser Suche erhalten Sie aufgrund des Stemmings und der Rechtstrunkierung alle Suchtreffer angezeigt, die das gesuchte Wort und seine Varianten umfassen. Die Suche nach Salz findet in unterschiedlichen Ausgaben des Wochenblattes und der Vorgängerblätter z. B.: Salz, Frau Dr. Salzmann, Salzglasur, Salzwasser, salzarme Ernährung oder das Salzburger Land.

Unscharfe Suche mit mehreren Suchbegriffen

Werden mehrere Suchbegriffe als unscharfe Suche – also ohne doppelte Anführungszeichen – eingegeben, enthalten die Suchtreffer zu einer Ausgabe einen oder alle gesuchten Begriffe (je nachdem, wie viele der gewählten Suchbegriffe in der Ausgabe gefunden werden). Die Suche nach Sonne Mond findet auf unterschiedlichen Seiten der gleichen Ausgabe z. B.: Mondsonde, Sonne, Sonnenschein oder (alternativ) Sonne, Sonnenhof, Sonntag, Sonnenring, Sonnenfinsternis, Sonnenschein, Sonnenschutz, Sonnenstudio, Sonnenbeobachtung und Mond, Mondorf, Mondring. Da Stoppwörter nicht berücksichtigt werden, findet eine einfache Suche nach Anna und Elisabeth auf verschiedenen Seiten einer Tagesausgabe z. B. verschiedene Doppelnamen, die Elisabeth enthalten wie auch Annahmeschluss.

Phrasensuche

Die Suche nach einer Phrase sucht nach Wörtern in unmittelbarer Nachbarschaft: Sie wird mit doppelten Anführungszeichen durchgeführt. Auch hier ist das Stemming aktiviert. Im Unterschied zur unscharfen Suche werden Stoppwörter bei der Suche nicht ignoriert, sondern einbezogen und es wird nur nach der eingegebenen Wortfolge gesucht. Die Suche nach "Adolf Becker-Flügel" findet genau diese Wortfolge.

Kombisuche

Unscharfe Suche und Phrasensuche lassen sich auch kombinieren: Mit der Suche "Wanderung zum Köppel" Verein können z. B. Ausgaben gefunden werden, in welchen eine Wanderung zum Köppel nahe Montabaur angekündigt wird und gleichzeitig der Verein für Briefmarkenkunde und Postgeschichte sein nächstes Treffen ankündigt. Prinzipiell kann auch angezeigt werden, wenn die Begriffe Wanderung zum Köppel und Verein in ein und demselben Artikel erscheinen. Die Suche nach mehreren Phrasen ist ebenfalls möglich! Diese Recherche findet eine Ausgabe des Amtsblattes/Wochenblattes, in der beide Phrasen in unterschiedlichen Artikeln vorkommen; aber auch Ausgaben in denen beide Phrasen im gleichen Artikel enthalten sind.

Erläuterungen verwendeter Terminologien

STEMMING

Die Suche nach einem Suchterm wie z. B. Wortes findet nicht nur diesen Suchterm selbst, sondern auch Varianten dieses Begriffs, die sich aus dessen Stemming ergeben (vgl.: Stemming). Stemming heißt: Die Varianten eines Wortes werden auf ihren gemeinsamen Wortstamm zurückgeführt; im Fall der Suche nach Wortes werden u. a. gefunden: Wort, Worten, Wörter oder Wortes.

RECHTSTRUNKIERUNG

Die Rechtstrunkierung ersetzt beliebig viele Zeichen am Ende des Wortes. Bei der Suche nach Hose wird nicht nur der Suchterm Hose gefunden, sondern u.a. auch die Begriffe Hosen, Hosenröhren, Hosenmatz, Hosenträger, Hosengasse.

STOPPWÖRTER

Bei der unscharfen Suche werden Stoppwörter nicht berücksichtigt (vgl.: Stoppwort). Stoppwörter sind z. B. bestimmte Artikel ('der', 'die', 'das'), unbestimmte Artikel ('einer', 'eine', 'ein'), Konjunktionen (z. B. 'und', 'oder', 'doch', 'weil') und häufig gebrauchte Präpositionen (z. B. 'an', 'in', 'von') sowie die Negation 'nicht'.