Telexauskunft-Computer 1973

Videos, Bilder, Publikationen in denen über Fernschreibtechnik gesprochen wird.
Antworten
Benutzeravatar

ProjektTelefon
Rank 8
Rank 8
Beiträge: 814
Registriert: Mo 5. Sep 2016, 11:01
Wohnort: 44807 Bochum
Hauptanschluß: 885724 es d
Kontaktdaten:

Re: Telexauskunft-Computer 1973

#21

Beitrag: # 15352Beitrag ProjektTelefon »

detlef hat geschrieben: Di 31. Dez 2019, 13:43 Das sind rund 1800 Seiten - eine Sysiphus-Aufgabe. :(
Ich denke mal die Arbeit kann man sich gut aufteilen, und irgendwann ist das Projekt ja dann auch abgeschlossen. Leider eine Sysiphus Aufgabe stimmt, aber eine Aufgabe die man denke ich ganz gerne macht...
Beide Maschinen sind 24/7 erreichbar:
885724 es d / Siemens T100S/Online
622828 lpw d / Siemens T37/Offline
8229455 jeco d/ Siemens T1000/Offline
BTX: 2204757353
Benutzeravatar

detlef
Rank 12
Rank 12
Beiträge: 3582
Registriert: Do 28. Mär 2019, 09:10
Wohnort: Marburg
Hauptanschluß: 7822222 hael d

Re: Telexauskunft-Computer 1973

#22

Beitrag: # 15353Beitrag detlef »

Ich habe noch ein wenig experimert. Das reine Extrahieren des Textes reicht nicht aus, um die Spalten zuzuordnen. Ich habe jetzt einen Weg gefunden, wie ich die Textefragmente (Chunks) der PDF-Seiten inkl. Position extrahieren kann. Über die Position kann man dann herausfinden, in welche Spalte der Text gehört (also Firmename, Rufnummer oder Kennung) und auch mehrzeiligen Firmennamen erkennen (hoffe ich).
Ich muss da noch ein wenig frickeln, aber ich denke, das bekommt man hin.

Für die die es interessiert: Ich verwende die PDF-Bibkiothek "itextsharp" zum Extrahieren der Textchunks.

Ich würde das Ergebnis dann in eine Textdatei schreiben und noch ein Programm schreiben, das aus der Textdatei wieder eine PDF erzeugt, bei der die Einträge wieder auf den gleichen Positionen stehen wie beim Orginal-PDF.
Dann kann man Original-PDF und neu erzeugtes PDF nebeneinander legen und die Korrekturen in die Textdatei eintragen.

Textdateien kann jeder bearbeiten. Man kann die nach Seitennummern aufteilen und zur Korrektur verteilen.

Lasst mir mal ein paar Wochen Zeit, ich schaue mal, wie weit ich mit dem Ansatz kommen. Ich halte euch auf dem Laufenden.

Und falls jemand noch Ideen dazu hat, immer gerne. :thumbsup:
Gruß, Detlef

i-Telex: 7822222 (T1000), 114288 (F1300), 211230 (T100Z), 96868 (T37), 24394 (T68d)
Konferenzdienst: 11160 / 11161, Rundsender: 11162 / 11163 , Baudot-Bilder: 11166
Chat-GPT: 11168, Mail- und Fax-Dienst: 11170 / 11171, hist. Auskunft 1987: 40140, Wetterdienst: 717171
Benutzeravatar

DF3OE
Founder
Founder
Beiträge: 3093
Registriert: Di 7. Jun 2016, 09:45
Wohnort: Edemissen - Blumenhagen
Hauptanschluß: 925302 treu d
Kontaktdaten:

Re: Telexauskunft-Computer 1973

#23

Beitrag: # 15354Beitrag DF3OE »

Ich habe in meinem Leben schon viele Adressen für Mailings abgetippt, als es noch "nicht so mit Computern" war...
Das Telexverzeichnis mit ALLEN Daten abzutippen und z.B. in eine Excel-Tabel einzugeben braucht Jahre...
von der menschlichen Fehlerrate beim Abtippen will ich gar nicht reden...

Du kannst ja schon mal anfangen. :)

@Detlef: Abrufschema und Bedienhinweise zur Telexauskunft finden sich in den "rosa Seiten" der alten
Telexverzeichnisse.
Ich muss mal schauen, ob ich vielleicht zufällig noch einen Originalausdruck von damals habe. Aber ist eher
unwahrscheinlich. Aber in den Bedienhinweisen ist es eigentlich ziemlich gut aufgeführt, wie so eine
Abfrage ablief und ausgedruckt wurde.


-
Zuletzt geändert von DF3OE am Di 31. Dez 2019, 15:18, insgesamt 1-mal geändert.
mfg
henning +++

925302 treu d - T1000Z (Hauptanschluss)
55571 fvler a - T100S
210911za hmb d - T150 (Werkstatt)
218308 test d - T1000S/LS (Werkstatt)
925333 =treu d (Minitelex Sanyo SF100) defekt
Fax G2/G3: 05176-9754481 (Sanyo SF100 Thermofax) defekt
Benutzeravatar

detlef
Rank 12
Rank 12
Beiträge: 3582
Registriert: Do 28. Mär 2019, 09:10
Wohnort: Marburg
Hauptanschluß: 7822222 hael d

Re: Telexauskunft-Computer 1973

#24

Beitrag: # 15355Beitrag detlef »

Noch eine Frage an Werner:

Der Scan des Telexverzeichnises 1983 ist vom April diesen Jahres. Hast du inzwischen vielleicht die Möglichkeit, das mit besserer OCR-Erkenung zu scannen?
Ich weiß, das Scannen ist sehr aufwändig. Aber evtl. weniger aufwändig als die manuelle Korrektur der Einträge.
Gruß, Detlef

i-Telex: 7822222 (T1000), 114288 (F1300), 211230 (T100Z), 96868 (T37), 24394 (T68d)
Konferenzdienst: 11160 / 11161, Rundsender: 11162 / 11163 , Baudot-Bilder: 11166
Chat-GPT: 11168, Mail- und Fax-Dienst: 11170 / 11171, hist. Auskunft 1987: 40140, Wetterdienst: 717171
Benutzeravatar

Topic author
Werner
Rank 12
Rank 12
Beiträge: 1367
Registriert: Mi 1. Jun 2016, 14:42
Wohnort: Aschaffenburg
Hauptanschluß: 97475 werner d

Re: Telexauskunft-Computer 1973

#25

Beitrag: # 15357Beitrag Werner »

Hallo Detlef,
ich habe, brav wie ich damals war, das 1983er Teilnehmerverzeichnis nach dem Scannen wieder zum Buchbinder gebracht. Ich lasse das Buch gerne wieder öffnen und kann es dann mit 1200 dpi scannen. Das dauert dann zwar tagelang, aber wo ein Problem ist, da ist auch ein Weg.
Ich schicke Dir morgen einmal eine Seite aus dem Verzeichnis mit Redaktionsschluss 1987, das ist etwas weniger umfangreich als das von 1983 hat aber immer noch 1000 Seiten. Dieses eine Blatt scanne ich mit 1200 dpi und dann kannst Du mal weiter testen. Das Verzeichnis von 1987 hätte den charmanten Vorteil, dass die Telexnummern OHNE Leerstellen im Verzeichnis ausgedruckt wurden. 1983 hat man noch die erste Ziffer (Nr. der Zentralvermittlungsstelle) abgesetzt und dann die weiteren Ziffern, teilweise mit erneuter Leerstelle abgedruckt.
Auf jeden Fall sind hochaufgelöste Scans für Dich wesentlich einfacher zu handhaben, wie ich jetzt verstanden haben. Test erst einmal mit dieser Testseite.
Okay so?
Folgende Benutzer bedankten sich beim Autor Werner für den Beitrag:
Franz
Viele Grüße :whack:
Werner+++

97475 werner d (7:30 - 22:30 Uhr, Siemens T1000)
52880 sie d (7:30 - 22:30 Uhr, Siemens T1200)
11301 tst ab d (nur abgehend, Lorenz T36)
8869114 mpir d (24/7, SEL Lo133)
622080 afag d (24/7, SEL Lo133 Automatik)
Minitelex:7826491 =izi d
Benutzeravatar

detlef
Rank 12
Rank 12
Beiträge: 3582
Registriert: Do 28. Mär 2019, 09:10
Wohnort: Marburg
Hauptanschluß: 7822222 hael d

Re: Telexauskunft-Computer 1973

#26

Beitrag: # 15360Beitrag detlef »

Werner hat geschrieben: Di 31. Dez 2019, 16:20 ich habe, brav wie ich damals war, das 1983er Teilnehmerverzeichnis nach dem Scannen wieder zum Buchbinder gebracht. Ich lasse das Buch gerne wieder öffnen und kann es dann mit 1200 dpi scannen. Das dauert dann zwar tagelang, aber wo ein Problem ist, da ist auch ein Weg.
Ich schicke Dir morgen einmal eine Seite aus dem Verzeichnis mit Redaktionsschluss 1987, das ist etwas weniger umfangreich als das von 1983 hat aber immer noch 1000 Seiten. Dieses eine Blatt scanne ich mit 1200 dpi und dann kannst Du mal weiter testen. Das Verzeichnis von 1987 hätte den charmanten Vorteil, dass die Telexnummern OHNE Leerstellen im Verzeichnis ausgedruckt wurden. 1983 hat man noch die erste Ziffer (Nr. der Zentralvermittlungsstelle) abgesetzt und dann die weiteren Ziffern, teilweise mit erneuter Leerstelle abgedruckt.
Auf jeden Fall sind hochaufgelöste Scans für Dich wesentlich einfacher zu handhaben, wie ich jetzt verstanden haben. Test erst einmal mit dieser Testseite.
Okay so?
Das ist eben eine Aufwandsabwägung. Bevor du das Buch wieder öffnen lässt und erneut scannst, sollten wir erstmal schauen, wie groß die Fehlerrate bei dem bestehenden PDF ist und wie schnell sich das manuell korrigieren lässt.
Entscheidend für mich ist nicht die Auflösung des Scans sondern Qualität der Texterkennung. Die wird ja von der Scan-Software ausgeführt. Wenn die bei 1200 dpi besser funktioniert, dann haben wir auch weniger Fehler. Ich mache kein OCR. Ich lese nur die bereits erkannten Texte aus der PDF-Datei.
Die nicht abgesetzte Ziffer sollte kein Problem sein, wenn sie immer vorhanden ist. Dann kann ich die per Software rausnehmen.
Gruß, Detlef

i-Telex: 7822222 (T1000), 114288 (F1300), 211230 (T100Z), 96868 (T37), 24394 (T68d)
Konferenzdienst: 11160 / 11161, Rundsender: 11162 / 11163 , Baudot-Bilder: 11166
Chat-GPT: 11168, Mail- und Fax-Dienst: 11170 / 11171, hist. Auskunft 1987: 40140, Wetterdienst: 717171
Benutzeravatar

detlef
Rank 12
Rank 12
Beiträge: 3582
Registriert: Do 28. Mär 2019, 09:10
Wohnort: Marburg
Hauptanschluß: 7822222 hael d

Re: Telexauskunft-Computer 1973

#27

Beitrag: # 16446Beitrag detlef »

Ich möchte hier mal einen Zwischenstand zu dem Projekt geben.

Nachdem Werner noch ein paar Scan-Versuche gemacht hat, hat er mir der 1000 Seiten des Telexverzeichnisses von 1987 nochmal komplett gescannt und ich habe die Daten ausgelesen. Leider ist die OCR-Qualität bei der kleinen Schrift und dem dünnen Papier nicht so gut, wie ich mir erhofft habe.

Ich habe dann in den letzten Wochen die Auslesesoftware optimiert und versucht alle systematischen Fehler zu korrigieren. Zum Beispiel ließen sich die Fehler in den Anschlussnummern seht gut erkennen, weil sie aufsteigen sortiert sind. Die Orte konnte ich gegen im Internet verfügbare Ortslisten prüfen und weitgehend korrigieren. Auch typische Muster von OCR-Fehlern habe ich versucht zu eliminieren. Aus I wird l und aus "Co.," wird "CoqI" (oder ähnlicher Quatsch), Umlaute werden häufig falsch erkannt. Fast alle Kommas wurden zu Punkten. Die Kommas sind aber existentiell, um den Ort und die sonstige Struktur des Eintrags zu erkennen. Anhand von Orts-, Wortlisten und Zeichenlisten, habe ich schon sehr viele automatisch erkennbare Fehler händisch korrigiert.

Man merkt, dass die OCR-Software darauf optimiert ist, bekannte Worte in zusammenhängenden Texten zu erkennen. Mit den vielen unbekannen Eigennamen, Abkürzungen und den sinnlosen Kennungen hat sie massive Probleme. Im Nachhinein hätten wir vielleicht noch etwas mehr Zeit in die Parametrisierung der OCR-Software stecken sollen, wobei ich keine Ahnung habe, was man da überhaupt einstellen kann. Vielleicht gibt es auch OCR-Software, die mit solchen Tabellendaten besser zurecht kommt.

Ich habe jetzt einen Stand mit 150.000 Teilnehmereinträgen, der auf den ersten Blick ganz gut aussieht. Wenn man natürlich genauer reinschaut, findet man noch haufenweise Fehler.
Wenn man das einigermaßen korrekt haben will, muss man händisch vergleichen. Dafür könnte ich aus den Daten wieder eine PDF-Datei erzeugen und die seitenweise genauso setzen, wie das Original (die Formatierungsdaten und Zeilenumbrüche habe ich mit gespeichert). Dann kann man die nebeneinanderlegen und vergleichen. Wenn man die 1000 Seiten auf einige Leute verteilt und man sich immer mal 50 Seiten oder vornimmt, ist das durchaus machbar. Muss ja nicht morgen fertig sein.

Was natürlich gegenüber der Orginalauskunft fehlt, sind die vollständigen Adressedaten. Im Moment haben wir nur den Firmennamen, den Ort und die Kennung aus dem Telexverzeichnis.

Aber wir haben jetzt einen Stand, mit dem man schon mal eine automatische Auskunft implementieren kann. Es werden dann eben die fehlerfaften Einträge nicht gefunden.
Der Alogrithmus der damaligen Suche ist in einem historischen Dokument sehr gut beschrieben und ließ sich leicht umsetzten. Nur ein paar Details sind mir noch unklar. Da bin ich noch am Probieren.
Die Suche basiert auf einer Hash-Tabelle aller Worte, die in allen Teilnehmereinträgen vorkommen (ca. 111.000 Worte). Im Prinzip funktioniert das so: Für jedes Suchwort, das man eingibt, werden alle zugehörigen Teilnehmereinträge ermittelt, in denen sie vorkommen. Dafür enthält jedes Suchwort eine Referenzliste auf die Einträge, in denen sie vorkommen. Bei mehreren Suchworten, wird nach bestimmten Regeln die Schnittmenge der gefunden Teilnehmeeinträge gebildet. Und dan gibt es nochmal einige Regeln, um die relevanten Einträge zu erkennen und auszugeben. Für einen TR86-Rechner von 1977 war das bei den Datenmengen ein stramme Leistung.

Heute sind 150.000 Datensätze ein Klacks. Das packt man alles in ein Dictionary und macht einen phonetische Suche. Ich versuche aber, den historischen Algorithmus möglichst gut nachzubilden.
Folgende Benutzer bedankten sich beim Autor detlef für den Beitrag (Insgesamt 2):
DF3OEReinholdKoch
Gruß, Detlef

i-Telex: 7822222 (T1000), 114288 (F1300), 211230 (T100Z), 96868 (T37), 24394 (T68d)
Konferenzdienst: 11160 / 11161, Rundsender: 11162 / 11163 , Baudot-Bilder: 11166
Chat-GPT: 11168, Mail- und Fax-Dienst: 11170 / 11171, hist. Auskunft 1987: 40140, Wetterdienst: 717171
Benutzeravatar

ReinholdKoch
Rank 12
Rank 12
Beiträge: 1348
Registriert: Di 26. Mär 2019, 12:10
Wohnort: Paderborn
Hauptanschluß: 93250 padbrn d

Re: Telexauskunft-Computer 1973

#28

Beitrag: # 16451Beitrag ReinholdKoch »

Hallo Detlef,

das klingt schon spannend was Du heute berichtet hast.
Gibt es denn bereits Ergebnisse, die dokumentiert sind, zur Einsichtnahme?
Sofern es um Korrekturen geht, die angeschaut und evtl . ergänzt, verbessert werden sollen, erkläre ich mich gern bereit, in dem Projekt mit arbeiten zu wollen. :drums:
Folgende Benutzer bedankten sich beim Autor ReinholdKoch für den Beitrag:
Franz
Herzliche Grüße

Reinhold

i-Telex 93250 padbrn d (LO3000 - online 24/7)
i-Telex 93310 padbrn d .........(LO3000 - online 24/7)
i-Telex 932240 tst pad .............(T100 - online 24/7)
----------------------------------
Minitelex: 96300 =padbrn d (-wie gewohnt- erreichbar!)
Benutzeravatar

Franz
Rank 12
Rank 12
Beiträge: 3127
Registriert: Do 18. Mai 2017, 15:15
Wohnort: Dreieich
Hauptanschluß: 411898 bfsz d

Re: Telexauskunft-Computer 1973

#29

Beitrag: # 16452Beitrag Franz »

ReinholdKoch hat geschrieben: Di 18. Feb 2020, 20:31
Sofern es um Korrekturen geht, die angeschaut und evtl . ergänzt, verbessert werden sollen, erkläre ich mich gern bereit, in dem Projekt mit arbeiten zu wollen. :drums:
Vielen Dank Reinhold, da biete ich mich ebenfalls an ... habe (fast) jeden Tag, wo ich morgens schon um 06.00 Uhr im Büro bin und der "Alltagsbetrieb" erst gegen 8 oder 8.30 Uhr losgeht, viel Zeit, für sinnvolle Tätigkeiten :thumbsup:
Folgende Benutzer bedankten sich beim Autor Franz für den Beitrag:
ReinholdKoch
411898 bfsz d + T100 (Schmaltastatur :thumbsup: )
411744 eddd d + T100 (Schmaltastatur :thumbsup: )
886747z bmwi d + T100Z (Schmaltastatur :thumbsup: ) )
4189939 eddz d + T100S (Volltastatur :/ )
Alle erreichbar von 06.00 - 22.00 Uhr lokal
Benutzeravatar

detlef
Rank 12
Rank 12
Beiträge: 3582
Registriert: Do 28. Mär 2019, 09:10
Wohnort: Marburg
Hauptanschluß: 7822222 hael d

Re: Telexauskunft-Computer 1973

#30

Beitrag: # 16453Beitrag detlef »

ReinholdKoch hat geschrieben: Di 18. Feb 2020, 20:31 das klingt schon spannend was Du heute berichtet hast.
Gibt es denn bereits Ergebnisse, die dokumentiert sind, zur Einsichtnahme?
Sofern es um Korrekturen geht, die angeschaut und evtl . ergänzt, verbessert werden sollen, erkläre ich mich gern bereit, in dem Projekt mit arbeiten zu wollen. :drums:
Im Moment ist du Suche noch offline. Ich bin noch am Experimentieren. Aber ich denke in 2-3 Wochen (vielleicht werden es auch vier :schwitz: ) habe ich ein Telex-Interface gebaut, so dass ich die Auskunft testweise online stellen kann.

Für die Korrekturen muss ich mir noch etwas einfallen lassen, wie man die Korrekturen erfassen kann, ohne dass die Textformatierung kaputt geht.
Die Teilnehmereinträge sehen im Texteditor im Moment so aus:

Code: Alles auswählen

0317017   468354 roeso d           Röhrig, Gerhard, Heppenheim,\nBergstraße [Heppenheim (Bergstraße)]
0317018   468356 eltra d           Schmidt-Hager, M., Einhausen,\nHess [Einhausen (Hess)]
0317019   468357 rigu d            RGF, Rimbacher\nGummiwaren-Vertriebsgesell-\nschaft mbH, Rimbach, Odenw [Rimbach (Odenw)]
0317020   468358 bertz d           Bertz Ladenbau GmbH,\nHeppenheim, Bergstraße [Heppenheim (Bergstraße)]
0317021   468359 mono d            MONOFLO\nTränkenvertriebs-GmbH & Co.,\nKG, Heppenheim, Bergstraße [Heppenheim (Bergstraße)]
0317022   468360 blrkh d           Elirkholz Kunststoffwerk GmbH,\nHeppenheim, Bergstraße [Heppenheim (Bergstraße)]
Die erste Spalte enthält Steuerdaten. Das \n sind die Zeilenumbrüche aus dem gedruckten Telexverzeichnis. In eckigen Klammern steht am Ende noch mal die erkannte Ortsangabe (zusätzlich, zur Kontrolle).
Beim Korrigieren muss man im Moment aufpassen, dass sich die Spalten nicht verschieben und dass die \n erhalten bleiben. Das muss ich noch irgendwie komfortabler machen, sonst ist das Korrigieren zu mühsam und fehleranfällig
Folgende Benutzer bedankten sich beim Autor detlef für den Beitrag:
ReinholdKoch
Gruß, Detlef

i-Telex: 7822222 (T1000), 114288 (F1300), 211230 (T100Z), 96868 (T37), 24394 (T68d)
Konferenzdienst: 11160 / 11161, Rundsender: 11162 / 11163 , Baudot-Bilder: 11166
Chat-GPT: 11168, Mail- und Fax-Dienst: 11170 / 11171, hist. Auskunft 1987: 40140, Wetterdienst: 717171
Antworten

Zurück zu „Media“