Seite 18 von 18

Zusammenfassung der technischen Schritte zu Digitalisierung des Telex-Verzeichnisses

Verfasst: Mo 26. Jul 2021, 15:16
von detlef
Hier habe ich nochmal den technische Teil der Digitalisierung des Telex-Verzeichnisses zusammengefasst.

Im Januar 2020 haben wir das Projekt Telefonverzeichnis begonnen. Hier der grobe Ablauf der einzelnen Arbeitsschritte

1. Zunächst hat Werner die 990 Seiten des Telex-Verzeichnisses mit OCR-Erkennung in hoher Auflösung eingescannt (990 Seiten)

2. Auslesen der Texte aus den PDF-Dateien und Überführung in einer Format, das sich per Programm weiterverabeiten ließ.

Leider waren die Texte in der PDF-Datei völlig chaotisch gespeichert. Nicht als fortlaufende Text sondern als viele
keine Textschnipsel mit Positionsangabe. Daraus mussten die einzelnen Einträge anhand ihrer Positionen und Abstände untereinander gefunden und den richtigen Zeilen und Spalten zugeordnet werden, um darauf zusammenhängende Einträge zu erzeugen. Erschwerend kommt hinzu, dass die Spaltenpositionen auf jeder Scan-Seite leicht variieren. Also auf jeder Seite wurden zunächsten die Spalten gesucht und dann die Texte ausgelesen und zugeordnet.

3. Analyse und automatische Vorkorrektur anhand von Wort- und Fehlermusterlisten

Das Anaylseprogramm erstellte zunächst eine Wortlist, in denen man ungültige Worte leicht erkennen konnte. Alle ungültigen oder unplausiblen Wörter wurden manuelle geprüft und korrigiert. Dabei hilft auch die Häufigkeit der Wörter. Fehlerhafte Wörter kommen eher seltenes vor. Für bestimmte Fehlermuster, die doch häufiger vorkamen, wurde manuell eine Fehlermusterliste erstellt, um sie automatisch zu korrigieren. Zum Beispiel wurde "Inh." sehr oft als "Inn." erkannt oder "+" als "-t-". Aus "Co." wurde "Coq", "Co'C" oder "Cri." Die Liste enthielt über 100 Fehlermuster, die automatisch korrigiert wurden.

4. Korrektur der Ortsangaben

Im nächsten Schritt wurden die Ortsangaben gegen eine Internetliste aller bekannten Orte geprüft und alle unbekannten Orten entweder korrigiert oder in die Ortsliste aufgenommen. Das war nicht ganz einfach, weil die Ortsgaben in dem Telex-Verzeichnis häufig durch eine Regionsangabe ergänzt sind - aber nicht immer. Das Analyseprogramm muss also erkennen, ob die Ortsangabe aus einem oder aus zwei Teilen besteht. Dafür wurde eine manuelle Liste aller Regionsangaben erstellt.

Beispiele:
Hamm Chemie GmbH, Stade (eine Angabe)
Hirth, Dieter A., Rosengarten, Kr Harburg (zwei Angaben, das Kr lässt sich automatisch erkennen)
Versandhaus Mohr KG, Horneburg, Niederelbe (ob "Horneburg" eine Ortsangabe ist oder zum Namen gehört, lässt sich nicht automatisch erkennen. Da Niederelbe in der Regionsliste steht, erkennt das Programm, dass Horneburg ebenfalls zur Ortsangabe gehört).

Damit waren die Namens- und Ortseinträge in einem auf den ersten Blick guten Zustand. Aber wenn man sich die Nameseinträge anschaute, fanden sich immer noch Fehler in jedem 3-5 Eintrag. Zu dem Zeitpunkt war schon klar, dann hier noch eine manuelle Korrektur aller Einträge notwendig sein würde.

5. Korrektur der Nummern und Kennungen

Das Analyseprogramm prüfte nun, ob das Format der Kennungen stimmt ("nummer kürzel d") und dass die Nummern keine ungültigen Zeichen enthielten. Da das Televerzeichnis nach Nummern sortiert ist, wurde im nächsten Schritt geprüft, ob die Nummern aufsteigend sind. Zum Beispiel wurden die Ziffern 0, 6, 8 sehr oft vertauscht. Durch die Prüfung der korrekten Reihenfolge konnten diese Fehler fast zu 100% gefunden werden.

6. Manuelle Korrektur

Die auf diese Weise korrigierten Daten waren nun die Grundlage für die anschließende manuelle Korrektur aller knapp 150.000 Einträge, was mit Abstand der größte Arbeitsaufwand war und an der viele Personen beteiligt waren. Ich habe für die manuelle Korrektur noch ein Korrekturprogramm geschrieben habe, das jeden Texteintrag der originaleb PDF-Ansicht gegenüberstellt, so dass Eintrag für Eintrag ohne Blättern und Suchen schnell geprüft und direkt korrigiert werden konnte. Trotzdem hat die Korrektur dann über ein Jahr gedauert.


Am Ende muss ich sagen, dass ich das ganze Projekt sicher nicht gestartet hätte, wenn mir der Gesamtaufwand vorher bewusst gewesen wäre. ;)
Was nichts heisst, dass es in Zukunft nicht wieder solche Projekte geben wird. Inzwischen ist ja auch einige Erfahrung vorhanden, wie man es besser machen kann und wo man Zeit sparen kann.

Re: Telexauskunft-Computer 1973

Verfasst: Mo 26. Jul 2021, 15:43
von detlef
Hier noch mal zwei Screenshots. Der erste zeigt das Analyseprogramme nach der Spalten- und Zeilenerkennung einer Seite.
Man sieht an den farbigen Markierungen, dass das Programm die Spalten und darin die einzelnen zusammengehörigen Einträge erkannt hat.

Screenshot_Analyse.png

Und hier noch ein Screenshot des Programms für die manuelle Korrektur. Rechts die Darstellung der Originaleintrags der PDF-Datei. Und links der Eintrag in Textform für die Fehlerkorrektur. Da bei der Analyse die Position und die Formatierung der Einträge mitgespeichert wurde, kann der Eintrag links genau so formatiert dargestellt werden wie der Originaleintrag und rechts der zugehörige Eintrag markiert werden. Das erleichtert die Korrektur, weil so Abweichungen visuell leichter erkannt werden.

Screenshot_Korrekturprogramm.png