PDF-Dateien importieren

Bernd_M_Abel · November 3, 2013, 11:03am

Guten Tag!

Seit längerer Zeit versuche ich PDF-Dateien, z. B. aus einem Scannerprogramm (MP Navigator CanoScan / Lide 100) zu einer LO-Textverarbeitungsdatei zu importieren, erhalte aber stets eine Fehlermeldung. Was mache ich falsch; was kann ich unternehmen?

Ich arbeite mit Windows 8, 64 bit, Sony Laptop Vaio SVE.

Viele Grüße
Bernd

RobertG · November 3, 2013, 11:25am

Hallo Bernd,

Seit längerer Zeit versuche ich PDF-Dateien, z. B. aus einem
Scannerprogramm (MP Navigator CanoScan / Lide 100) zu einer
LO-Textverarbeitungsdatei zu importieren, erhalte aber stets eine
Fehlermeldung. Was mache ich falsch; was kann ich unternehmen?

LO öffnet mit dem *.pdf-Bearbeitungsmodul nicht die Textverarbeitung
sondern das Zeichenprogramm. Dort werden dann die Inhalte mit
Textblöcklen und Bildern entsprechend dargestellt. Es wird daraus kein
Fließtext erzeugt. Du kannst aber Text bearbeiten und das Ganze als
*.pdf wieder abspeichern.

Macht das Scannerprogramm tatsächlich *.pdf-Dateien, bei denen der Text
nicht einfach als Bild dargestellt wird? Ich habe das schon lange nicht
mehr gemacht, aber früher gab es dafür immer spezielle OCR-Software, die
erst einmal aus dem Bildmaterial Text erzeugen musste und das dann auch
noch halbwegs dem Layout der Vorlage anzupassen versuchte.

Gruß

Robert

Egon_Poppe · November 3, 2013, 11:32am

Hallo Bernd,

pdf ist eigentlich ein Format, dass gerade dafür geschaffen wurde, dass es
nicht als Textdatei irgendwo bearbeitet werden kann. Natürlich geht es über
Copy/Paste. Dazu muss man das PDF-Dokument erst einmal im Adobe-Reader
öffnen und dann aus der Zwischenablage (ich hoffe so etwas gibt's bei win8
noch) in LO einfügen.

Viel Erfolg

Egon

Christian_Palm1 · November 3, 2013, 11:56am

Hallo Bernd,

wie Robert schon angedeutet hat, verstehst Du da was falsch.

PDF Dateien sind für die Software an sich eher Bilddateien.
Also entweder über OCR Software umwandeln, ein Programm wählen das auch PDF - Dateien bearbeiten kann oder die Texte über Copy und Paste in Textverarbeitung übernehmen, was nur bei kleinerem wirklich Sinn macht.

Gruß
Christian

RobertG · November 3, 2013, 12:07pm

Hallo Bernd,

Seit längerer Zeit versuche ich PDF-Dateien, z. B. aus einem
Scannerprogramm (MP Navigator CanoScan / Lide 100) zu einer
LO-Textverarbeitungsdatei zu importieren, erhalte aber stets eine
Fehlermeldung. Was mache ich falsch; was kann ich unternehmen?

LO öffnet mit dem *.pdf-Bearbeitungsmodul nicht die Textverarbeitung
sondern das Zeichenprogramm. Dort werden dann die Inhalte mit
Textblöcklen und Bildern entsprechend dargestellt. Es wird daraus kein
Fließtext erzeugt. Du kannst aber Text bearbeiten und das Ganze als
*.pdf wieder abspeichern.

Macht das Scannerprogramm tatsächlich *.pdf-Dateien, bei denen der Text
nicht einfach als Bild dargestellt wird? Ich habe das schon lange nicht
mehr gemacht, aber früher gab es dafür immer spezielle OCR-Software, die
erst einmal aus dem Bildmaterial Text erzeugen musste und das dann auch
noch halbwegs dem Layout der Vorlage anzupassen versuchte.

Gruß

Robert

Ulrich_Moser · November 3, 2013, 2:39pm

Hallo Bernd,

ich weiß nicht mit welcher Scan-Software Du arbeitest, die hat ggf.
schon ein OCR-Programm drin. Früher wurde mit Win (ich glaube bis Vista)
auch eine versteckte Version von OmniPage mitgeliefert. Falls Du kein
OCR hast, kannst Du es mit tesseract3 versuchen. Das ist Bestandteil
vieler freier OCR-Programme für Windows. Schau einfach mal in den
gängigen Shareware/Freeware-Seiten nach. Mit diesen Programmen erhältst
Du je nach Leistungsumfang entweder eine reine Textdatei oder eine meist
Word-Datei in der versucht wird, das Layout bestmöglich zu erhalten.

Viel Erfolg

Ulrich

Schmidt_Detlef · November 4, 2013, 8:39am

Hallo Bernd,

ein Scanner erzeugt immer Bilder. Deshalb liefern manche Scanner-Firmen OCR-Programme mit. Das Scannerprogramm kann die Bilder in unterschiedlich in schwarz, grau oder farbig, in verschiedenen Auflösungen (dpi) oder Formaten erzeugen z. B. *.tiff oder *.jpg oder als eine pdf-Datei. Die pdf-Datei kann nützlich sein, wenn ich das Bild z. B. so wie es ist (z. B. bei Bescheiden, Urkunden) ausdrucken und / oder aufheben (Speicher, Festplatte, USB, SSD) oder in andere pdf-Dateien einfügen möchte.

Ganz anders ist es, wenn ich mit Writer einen Text erzeuge und den Text als pdf-Datei exportiere. Bei so einer pdf-Datei habe ich Text, den ich als Text kopieren und woanders z.B. in Writer einfügen kann. Man kann das testen, versuchen den Text zu markieren. Lässt sich ein Wort markieren, dann kann es kopiert und eingefügt werden. Kann ich aber nur die ganze Seite markieren, dann habe ich ein Bild, das mit OCR in editierbaren Text umgewandelt werden muss.

Nebenbei
Für das Betriebssystem Windows, ist ein kostenfreies Programm im Internet erhältlich (Nitro Reader 3). Mit diesem Programm können pdf-Dateien gelesen und bearbeitet werden. Ich benutze das Programm zum Ausfüllen und Abspeichern von pdf-Formularen. Mit dem Adobe Reader lassen sich zwar auch solche Formulare ausfüllen, aber nicht ausgefüllt speichern.

Gruß
Detlef

Michael_Hohne · November 4, 2013, 8:35pm

Hallo Detlef, Bend, *

ein Scanner erzeugt immer Bilder. Deshalb liefern manche
Scanner-Firmen OCR-Programme mit. Das Scannerprogramm kann die Bilder
in unterschiedlich in schwarz, grau oder farbig, in verschiedenen
Auflösungen (dpi) oder Formaten erzeugen z. B. *.tiff oder *.jpg oder
als eine pdf-Datei.

Wobei ich das Scannen in eine PDF-Datei nicht für übermäßig sinnvoll
halte: Der Scanner liefert ja auch hier ein Bild, dass dann einfach in
eine PDF-"Hülle" verpackt wird. Will man das Bild noch nach bearbeiten,
stört das nur. Bilder kann man schließlich immer noch in eine PDF-Datei
verwursten, wenn es nötig tut.

Ganz anders ist es, wenn ich mit Writer einen Text erzeuge und den
Text als pdf-Datei exportiere. Bei so einer pdf-Datei habe ich Text,
den ich als Text kopieren und woanders z.B. in Writer einfügen kann.

Achtung! Das muss nicht sein! Es gibt Leute (und ich gehöre manchmal
dazu), die den Text vorher in Vektoren auflösen um ein Copy&Paste zu
verhindern. Zusätzlich mit einem Kopierschutz ist das manchmal
nützlich, wenn man verhindern möchte, dass einem die Inhalte so einfach
entwendet werden.

PDF-Dateien sollte man aber immer als das auffassen was sie sind:
"Elektronische Ausdrucke" die nicht zur Weiterverarbeitung gedacht
sind. Das sollte man respektieren.

Gruß,
Michael

Ulrich_Moser · November 4, 2013, 9:31pm

Hallo Detlef, Bend, *

ein Scanner erzeugt immer Bilder. Deshalb liefern manche
Scanner-Firmen OCR-Programme mit. Das Scannerprogramm kann die Bilder
in unterschiedlich in schwarz, grau oder farbig, in verschiedenen
Auflösungen (dpi) oder Formaten erzeugen z. B. *.tiff oder *.jpg oder
als eine pdf-Datei.

Wobei ich das Scannen in eine PDF-Datei nicht für übermäßig sinnvoll
halte: Der Scanner liefert ja auch hier ein Bild, dass dann einfach in
eine PDF-"Hülle" verpackt wird. Will man das Bild noch nach bearbeiten,
stört das nur. Bilder kann man schließlich immer noch in eine PDF-Datei
verwursten, wenn es nötig tut.

Ganz anders ist es, wenn ich mit Writer einen Text erzeuge und den
Text als pdf-Datei exportiere. Bei so einer pdf-Datei habe ich Text,
den ich als Text kopieren und woanders z.B. in Writer einfügen kann.

Achtung! Das muss nicht sein! Es gibt Leute (und ich gehöre manchmal
dazu), die den Text vorher in Vektoren auflösen um ein Copy&Paste zu
verhindern. Zusätzlich mit einem Kopierschutz ist das manchmal
nützlich, wenn man verhindern möchte, dass einem die Inhalte so einfach
entwendet werden.

PDF-Dateien sollte man aber immer als das auffassen was sie sind:
"Elektronische Ausdrucke" die nicht zur Weiterverarbeitung gedacht
sind. Das sollte man respektieren.

Es gibt eine Reihe sinnvoller Anwendungen dafür z.B. wenn man Rechnungen
einscannt, mittels OCR die Daten ausliest und direkt in ein ERP-System
einspeisen kann, oder auch um ein durchsuchbares elektronisches Archiv
zu erstellen, dasss dann z.B. auf die Originale (gescannte PDFs oder
tatsächlich Papier) verweist. Ich habe dazu gerade ein Buch
veröffentlicht: Dokumenten Scanning, BPX Edition Rheinfelden, ISBN
978-3-905413-53-3. Das geht dann in Richtung elektronischer Workflow
oder Nachweisbarkeit der Compliance (schnelles Auffinden von Originalen
anhand von Metadaten oder Volltext-Recherche).

kbu · November 5, 2013, 5:16am

Hallo Michael,

klingt gut - wie geht das?

Danke & Gruß, Klaus

Michael_Hohne · November 5, 2013, 8:55am

[Reihenfolge repariert]

> die den Text vorher in Vektoren auflösen um ein Copy&Paste zu
> verhindern

Hallo Michael,

klingt gut - wie geht das?

Du musst ein entsprechendes Programm verwenden

Im Ernst: Ich verwende das für Anleitungen im PDF-Format, die nicht
übermäßig viel Text verwenden. Ich setzte bei solchen Projekten z.T.
noch alte AMIGA-Software ein, die genau diese Funktion beim Export
anbietet.

Machen lässt sich das aber auch mit LibreOffice: Du kannst
z.B. in Draw Textrahmen verwenden, die du vor dem Export mit
"Ändern/Umwandeln/In Kurve" behandelst.

Mir ist allerdings klar, dass das nichts gegen die Umwandlung von PDF
in Grafik und die anschließende Behandlung mit OCR-Software hilft. Aber
wenn jemand meine Arbeit klauen will, dann soll er sich gefälligst
anstrengen müssen

Gruß,
Michael

Michael_Hohne · November 5, 2013, 9:00am

O.K. Ich wollte das nicht komplett als unsinnig hinstellen.

Mir ist nur aufgefallen, dass sehr viele Leute das Scannen nach PDF
verwenden, obwohl sie von den Funktionen einer PDF-Datei nichts nutzen.

Insbesondere die Verrenkungen, die dann einige von denen machen, wenn
sie dann das Bild als Bild verwenden wollen. Das abenteuerlichste war
dann die Anzeige des PDF auf dem Bildschirm, Snapshots in vergrößerter
Ansicht und anschließendes Bilder-Puzzle mit einem Malprogramm.

Es ist halt wie so oft: Erst Gedanken über die weitere Verwendung
machen, anschließend das dafür beste Dateiformat wählen.

Gruß,
Michael