Autor Thema: ATARI Profibuch ST-STE-TT v2.0 per OCR als Word/PDF  (Gelesen 33059 mal)

0 Mitglieder und 1 Gast betrachten dieses Thema.

guest3384

  • Gast
ATARI Profibuch ST-STE-TT v2.0 per OCR als Word/PDF
« am: Mo 11.03.2013, 13:15:37 »
Hallo zusammen,

wie im alten Topic bereits angekündigt habe ich mir das Profibuch geschnappt und es durch Omnipage gejagt. Dass das kein Selbstgänger werden würde, war mir irgendwie klar.

Probleme:
1. Das ganze PDF in Omnipage laden geht nicht, Prozess stürzt bei 1,4 GB alloziertem RAM ab (dann sind aber gerade mal 450 Seiten geladen).
2. Ich muss jede Seite einzeln in Textbereich, Grafikbereich und Tabellenbereich unterteilen
3. Texterkennung hat bei Quellcode so seine Schwächen (l = 1 oder 4 = # etc.)

Lösungen:
zu 1.: Ich habe das PDF in 4 Teile à 400 Seiten "zerhackt" und lasse die nun einzeln durch Omnipage laufen.
zu 2.: Dauert einfach ein bisschen (pro 400 Seiten ca. 2 Tage)!  :)
zu 3.: Die OCR-Ergebnisse werden bei "Unklarheiten" von Hand korrigiert, hier gibt es aber noch ein Problem: Manchmal fragt Omnipage nicht, da es der Meinung ist, den Text richtig erkannt zu haben. Deswegen muss der gesamte Text nochmal Korrektur gelesen werden.

Deswegen benötige ich die Hilfe vieler Freiwilliger!

Ich würde das Ergebnis als Word freigeben und wir verteilen die verschiedenen Kapitel auf verschiedene Köpfe, die ihr Kapitel jeweils nochmal durchschauen und korrigieren. Die Ergebnisse würde ich wieder zusammenführen und als Gesamtdokument hier im Forum zur Verfügung stellen (Word / PDF).

Was haltet ihr davon und wer macht mit?

Gruß
Sascha (alias Blackswan)

Offline Mathias

  • Benutzer
  • Beiträge: 1.578
Re: ATARI Profibuch ST-STE-TT v2.0 per OCR als Word/PDF
« Antwort #1 am: Mo 11.03.2013, 13:26:44 »
Hallo Sascha!

Gute Initiative!
Leider habe ich schon zuviel um die Ohren als da mitarbeiten zu können. Aber ich hab zwei Anmerkungen ;)

• Mach doch bitte kein Word, sondern ein RTF (sei neuestem heißt das "Altes RTF" weil die Spinner ja den RTF Standard ändern mußten) draus. Dann können wir das auch auf unseren Atari lesen.

• Raufladen kann mans dann sicher auf Profibuch.de, hier im Forum gehts nur unter.
MegaST 4 mit Sounddesigner II MegaBus-Hardware und 56001, MegaSTE, Hades 040, MagiC Mac auf Mac OS 9 und eine FireBee.

Offline Milan

  • Benutzer
  • Beiträge: 91
  • TT030, Milan060, HPUX-B2000, FireBee, AMD TR-1920X
Re: ATARI Profibuch ST-STE-TT v2.0 per OCR als Word/PDF
« Antwort #2 am: Mo 11.03.2013, 14:59:14 »
Oder direkt im LibreOffice. Word kann auch OpenOffice bzw LibreOffice (*.odt) lesen

Milan

Offline 1ST1

  • Benutzer
  • Beiträge: 8.661
  • Gesperrter User
Re: ATARI Profibuch ST-STE-TT v2.0 per OCR als Word/PDF
« Antwort #3 am: Mo 11.03.2013, 15:13:41 »
RTF ist nicht gut, da das viele Formatierungen nicht unterstützt. Ich bevorzuge DOCX (Office 2007, 2010, 2013) oder ODT (Open/Libre-Office), wobei man beliebig zwiswchen beiden hin und her konvertieren kann, so dass das nicht zu einem Glaubenskrieg ausarten muss.
Ausgeloggter Mitleser, der hier NIE mehr aktiv wird. Am besten, meine Inhalte komplett löschen. Dabei berufe ich mich auf mein Urheberrecht, die DSGVO und auf die Rechte, die mir unter Impressunm&Datenschutz zugestanden werden. Tschö!

Offline Mathias

  • Benutzer
  • Beiträge: 1.578
Re: ATARI Profibuch ST-STE-TT v2.0 per OCR als Word/PDF
« Antwort #4 am: Mo 11.03.2013, 15:21:06 »
Weder ODT noch DOCX sind am Atari lesbar. Wenn man sich schon die Arbeit antut sollte man sich auch selber ernst nehmen und ein Format nutzen, das auch auf Ataris lesbar ist. Und mir fällt jetzt aber auch gar nichts ein was mit RTF nicht gehen würde.
MegaST 4 mit Sounddesigner II MegaBus-Hardware und 56001, MegaSTE, Hades 040, MagiC Mac auf Mac OS 9 und eine FireBee.

Burkhard Mankel

  • Gast
Re: ATARI Profibuch ST-STE-TT v2.0 per OCR als Word/PDF
« Antwort #5 am: Mo 11.03.2013, 15:31:08 »
Oder direkt im LibreOffice. Word kann auch OpenOffice bzw LibreOffice (*.odt) lesen

Milan

Das ist mir aber neu! Ich verwende auf'm PC open- und Libre Office, wobei letzteres ja aus ersterem entstanden ist ...
Ein bekannter von mir hat das aktuellste Mikrosoft Office Paket - und kann mit den Open/Libre dokumenten nix anfangen, wenn ich sie nicht im Word-Format (*.DOC) bzw. RTF abspeichere

Offline 1ST1

  • Benutzer
  • Beiträge: 8.661
  • Gesperrter User
Re: ATARI Profibuch ST-STE-TT v2.0 per OCR als Word/PDF
« Antwort #6 am: Mo 11.03.2013, 16:05:19 »
Weder ODT noch DOCX sind am Atari lesbar. Wenn man sich schon die Arbeit antut sollte man sich auch selber ernst nehmen und ein Format nutzen, das auch auf Ataris lesbar ist. Und mir fällt jetzt aber auch gar nichts ein was mit RTF nicht gehen würde.

Es ist aber die Frage, ob 1ST Word Plus oder ähnliches solch große Dokumente überhaupt öffnen kann. Wir reden hier von 1600 Seiten Text mit Tabellen und Grafiken.

Ich würde es lieber auf dem PC öffnen. Wobei PC auch Netbook oder Win 8 Pro Tablet sein könnte, welches man nett neben den ST/TT legen kann.
Ausgeloggter Mitleser, der hier NIE mehr aktiv wird. Am besten, meine Inhalte komplett löschen. Dabei berufe ich mich auf mein Urheberrecht, die DSGVO und auf die Rechte, die mir unter Impressunm&Datenschutz zugestanden werden. Tschö!

guest3384

  • Gast
Re: ATARI Profibuch ST-STE-TT v2.0 per OCR als Word/PDF
« Antwort #7 am: Mo 11.03.2013, 16:06:04 »
Hallo zusammen,

ich freue mich über das rege Feedback. Allerdings sollte in der Tat kein "Format-Glaubenskrieg" entstehen, kann doch jeder die Datei(en) wie er sie braucht nochmal umspeichern/konvertieren.

Was mir fehlt sind "Korrekturleser"... :)  :P

Gruß
Blackswan

Burkhard Mankel

  • Gast
Re: ATARI Profibuch ST-STE-TT v2.0 per OCR als Word/PDF
« Antwort #8 am: Mo 11.03.2013, 16:11:25 »
Das ProfiBuch ist doch eigentlich als PDF schon irgendwo im Netz - oder handelt es sich hier jetzt nochmal um eine andere (verbesserte) Auflage?

edit: Ich mußte erstmal suchen: hier der Link:
http://www.atariprofibuch.de/ATARI%20Profibuch%20ST-STE-TT.pdf
« Letzte Änderung: Mo 11.03.2013, 16:19:47 von Burkhard Mankel »

Offline Mathias

  • Benutzer
  • Beiträge: 1.578
Re: ATARI Profibuch ST-STE-TT v2.0 per OCR als Word/PDF
« Antwort #9 am: Mo 11.03.2013, 16:25:56 »

Ich würde es lieber auf dem PC öffnen. Wobei PC auch Netbook oder Win 8 Pro Tablet sein könnte, welches man nett neben den ST/TT legen kann.
Ja, damit hast Du jetzt zum zweitenmal gesagt was Du bevorzugst, aber keinen technisch Grund genannt, warum RTF nicht gehen sollte. Noch dazu kannst Du mit Deinen PCs jedes RTF öffnen. Wenns ODT oder DOCX wird, werde ich es aber im Gegensatz nie öffnnen können.

Und nein es geht nicht um Format-Glaubensikriege, sondern einfach darum, ob ich es überhaupt nutzen kann, und ob Menschen es mit Atari nutzen können. Für meine Betriebssysteme gibts eben kein DOCX (ohja eine kostenpflichtigen Konverter nach RTF, ...) und kein ODT. Ende.
Ich kapier das nicht, sich in eine Nieschenplattform bewegen und dann immer gegen Nutzungsmöglichkeiten der Niesche argumentieren ohne ersichtlichen Grund.

Und ja es soll sich jetzt mal wer zu korrekturlesen melden. Und Burkhard das Buch ist hier: http://atariprofibuch.de/
Es ist nur nicht kopierbar/durchsuchbar und indizierbar usw. Daher die super Idee es durch ein OCR laufen zu lassen.
« Letzte Änderung: Mo 11.03.2013, 16:27:59 von Mathias »
MegaST 4 mit Sounddesigner II MegaBus-Hardware und 56001, MegaSTE, Hades 040, MagiC Mac auf Mac OS 9 und eine FireBee.

gstoll

  • Gast
Re: ATARI Profibuch ST-STE-TT v2.0 per OCR als Word/PDF
« Antwort #10 am: Mo 11.03.2013, 16:54:58 »
http://atariprofibuch.de/
Es ist nur nicht kopierbar/durchsuchbar und indizierbar usw.

Habt Ihr eine andere Ausgabe wie ich? Ich hatte mir es selbst erst letztens geholt und es ist durchsuchbar. Bin mir auch sicher dies Arthur gemacht macht.

Es ist allerdings richtig, das es noch Korretur gelesen müsste und mindestens ein Inhaltsverzeichnis erstellt.

Gerhard

Offline jens

  • Benutzer
  • Beiträge: 4.637
  • Halleluja, I'm on Highwire...
Re: ATARI Profibuch ST-STE-TT v2.0 per OCR als Word/PDF
« Antwort #11 am: Mo 11.03.2013, 17:12:28 »
Es ist aber die Frage, ob 1ST Word Plus oder ähnliches solch große Dokumente überhaupt öffnen kann. Wir reden hier von 1600 Seiten Text mit Tabellen und Grafiken.
Ich weiß nicht, ob Tabellen und Grafiken problemlos funktionieren, weil ich es selbst noch nicht ausprobiert habe, aber Tempus Word NG fängt angeblich erst bei ca. 2000 (zweitausend, 2k) Seiten an, Spaß zu machen und ist bei reinem Text auch mit vier MB RAM und acht Mhz ziemlich flüssig, sobald die Fonts geladen sind. ;D
Gruß, Jens
 
Falcon 030, TT 030, Mega/STe, ST-Book, 1040 STf, 520 ST+ - Milan 060
Diverse PCs und Macs sowie Amiga 1200 und 3000
 
Classic Computing

jabber: gemini8@atari-jabber.org

Offline 1ST1

  • Benutzer
  • Beiträge: 8.661
  • Gesperrter User
Re: ATARI Profibuch ST-STE-TT v2.0 per OCR als Word/PDF
« Antwort #12 am: Mo 11.03.2013, 17:33:22 »
Man man man...  ::)

Wie wärs denn, wenn es in verschiedenen Formaten vorliegt, so alle gängigen (DOC, DOCX, ODT, RTF, durchsuchbares PDF, HTML ...) und da kann sich dann jeder das raussuchen, was er will...  ???
Ausgeloggter Mitleser, der hier NIE mehr aktiv wird. Am besten, meine Inhalte komplett löschen. Dabei berufe ich mich auf mein Urheberrecht, die DSGVO und auf die Rechte, die mir unter Impressunm&Datenschutz zugestanden werden. Tschö!

HamSTer

  • Gast
Re: ATARI Profibuch ST-STE-TT v2.0 per OCR als Word/PDF
« Antwort #13 am: Mo 11.03.2013, 17:37:42 »
Nett wäre, wenn die Doku zum Betriebssystem aktualisiert wird (mittels tos.hyp vielleicht).

Offline Arthur

  • Benutzer
  • Beiträge: 10.311
  • Mein Atari erinnert mich an die gute alte Zeit..
Re: ATARI Profibuch ST-STE-TT v2.0 per OCR als Word/PDF
« Antwort #14 am: Mo 11.03.2013, 19:51:09 »
Hallo Sascha, falls Du es bemerkt hast. Das Profibuch ist schon "OCRriesiert" worden. Eine Textsuche sollte schon funktionieren. Das Inhaltverzeichnis ist indexiert, das Stichwortverzeichnis im Anhang noch nicht.
« Letzte Änderung: Mo 11.03.2013, 19:54:44 von Arthur »

Offline Milan

  • Benutzer
  • Beiträge: 91
  • TT030, Milan060, HPUX-B2000, FireBee, AMD TR-1920X
Re: ATARI Profibuch ST-STE-TT v2.0 per OCR als Word/PDF
« Antwort #15 am: Mo 11.03.2013, 21:09:45 »
Hallo Burkhard

[/quote]
Das ist mir aber neu! Ich verwende auf'm PC open- und Libre Office, wobei letzteres ja aus ersterem entstanden ist ...
Ein bekannter von mir hat das aktuellste Mikrosoft Office Paket - und kann mit den Open/Libre dokumenten nix anfangen, wenn ich sie nicht im Word-Format (*.DOC) bzw. RTF abspeichere
[/quote]

Hier ist ein Screenshot vom aktuellen MS Word.Wie man sieht, kann man *.odt Dokumente problemlos laden. Klicke auf "Dokument öffnen", schalte um auf "alle Formate" und wähle *.odt aus. Damit ist die Sache erledigt und alles funktioniert perfekt.

Gruß Milan

guest3384

  • Gast
Re: ATARI Profibuch ST-STE-TT v2.0 per OCR als Word/PDF
« Antwort #16 am: Mo 11.03.2013, 22:49:01 »
Hallo Sascha, falls Du es bemerkt hast. Das Profibuch ist schon "OCRriesiert" worden. Eine Textsuche sollte schon funktionieren. Das Inhaltverzeichnis ist indexiert, das Stichwortverzeichnis im Anhang noch nicht.

Hallo Arthur,

ist mir nicht aufgefallen. Nichts desto trotz will ich (und wenn ich es nur für mich mache) das Profibuch in einer optisch angenehm lesbaren Variante haben. Wenn alle anderen mit dem OCR'ten Scan klarkommen, ist das auch gut.

Ich werde, wenn es Ergebnisse gibt, etwas davon veröffentlichen.

Gruß
Blackswan

PS: Das Buch ist interessanterweise voller Tippfehler, warum auch immer!?
PPS: Falls trotzdem jemand helfen möchte, so lasse er mich das wissen. :)

Offline HelmutK

  • Benutzer
  • Beiträge: 676
Re: ATARI Profibuch ST-STE-TT v2.0 per OCR als Word/PDF
« Antwort #17 am: Mo 11.03.2013, 22:53:29 »
Kannst Du vielleicht ein paar Ausrufungszeichen entfernen? Die gehen mir ziemlich auf den Keks! !!!

Offline Mikespeier

  • Benutzer
  • Beiträge: 131
Re: ATARI Profibuch ST-STE-TT v2.0 per OCR als Word/PDF
« Antwort #18 am: Di 12.03.2013, 07:08:25 »
Guten Morgen zusammen!

Das finde ich ja eine tolle Idee, nur das mit dem Format wird Ärger geben. RTF? Welches denn? 1ST Word Plus 4 und 5 haben ein anderes RTF wie ATARI Works oder Tempus Word, sie sind nicht untereinander austauschbar.

Wenn jemand das gute alte Star-Office hat, dann sind da wenn ich es richtig im Kopf habe sage und schreibe 12 verschiedene RTF-Formate vorhanden, jedoch ist keines mit den von mir genannten Programmen kompatibel!  :o

DOCX ist zwar interessant, macht aber etwas Schwierigkeiten mit OpenOffice.org bzw. LibreOffice. Ich verwende hier ausschließlich Linux/Kubuntu, MS Office fällt bei mir also sowieso aus.

(EDIT: Auf meinem TT030 läuft übrigens ATARI Works und das gute, alte 1ST Word Plus 3.20 TT BRD)

Ein vernünftiges Format wäre PDF, das dürfte eigentlich auf jeder Rechnerplattform irgendwie verfügbar sein. Noch besser wäre allerdings wirklich HTML, das kann wirklich jeder selbst auf einem Smartphone lesen!


PS.: Kennt hier jemand einen ATARI-Experten hier in Augsburg? Mein TT030 macht irgendwie Ärger und hat seit kurzem keine Verbindung mehr zur Außenwelt, selbst das Diskettenlaufwerk hat sich nun verabschiedet!  :'(



Viele Grüße nun aus TmoWizard's Castle zu Augsburg

Mike, TmoWizard
« Letzte Änderung: Di 12.03.2013, 07:13:29 von Mikespeier »
800XL mit 1050 und Turbofreezer (RIP 2008); TT030 32MHz 4/8 MB und 100MB FP mit DataLight2, MultiTOS und NVDI3; Falcon030 16MHz, 4MB, 85MB Festplatte - (RIP 2009); aktuell: AMD Athlon II X2 220, 2x2.800 GHz, 6GB RAM, 2 Festplatten je 500 MB und eine für mich völlig überdimensionierte Grafikkarte! ;-)

Offline Mikespeier

  • Benutzer
  • Beiträge: 131
Re: ATARI Profibuch ST-STE-TT v2.0 per OCR als Word/PDF
« Antwort #19 am: Di 12.03.2013, 07:24:08 »
Es ist aber die Frage, ob 1ST Word Plus oder ähnliches solch große Dokumente überhaupt öffnen kann. Wir reden hier von 1600 Seiten Text mit Tabellen und Grafiken.

Wenn deine Platte groß genug ist, dann hat auch das alte 1ST Word Plus 3.20 mit dieser Größe keinen Ärger! Allerdings braucht es auf dem TT030 mit solch einem Umfang schon ein bißchen zum Laden, außerdem hat das ein "etwas" eigenwilliges Format.  ;)

Auf einem ST möchte ich das aber gar nicht erst probieren, ich denke mal, daß er bei solch einem Projekt aussteigen würde.


Mike, TmoWizard
800XL mit 1050 und Turbofreezer (RIP 2008); TT030 32MHz 4/8 MB und 100MB FP mit DataLight2, MultiTOS und NVDI3; Falcon030 16MHz, 4MB, 85MB Festplatte - (RIP 2009); aktuell: AMD Athlon II X2 220, 2x2.800 GHz, 6GB RAM, 2 Festplatten je 500 MB und eine für mich völlig überdimensionierte Grafikkarte! ;-)