Hallo Rainer und alle Diskutanten
> >> Den Text öffnen, kopieren, in einen UTF-8-fähigen (sollten unter
> >> Linux alle sein) Texteditor einfügen, umcodieren und neue
> >> Textdatei mit LO erstellen.
Das ist für alle zu ändernden Texte notwendig. Mit den SO-/LO- bzw Word-Texten
geht automatisiert vermutlich gar nix. Möglicherweise bietet MS ein Tool dafür
an, weiß ich aber nicht.
> >
> > Funktioniert nicht. Beispiel: das Wort "für" (im alten Dokument
>
> > "fŸr"):
> Wenn es nur die 7 deutschen Sonderzeichen sind: üöäÜÖÄß
> könnte man die doch einfach "replace Ÿ mit ü" machen.
Ja, darauf läuft es raus, aber…
> Notepad++ hätte für soetwas die Option, solche Ersetzungen in allen
> geladenen Dateien auf einmal zu machen - vielleicht hätte gibt's das
> ja auch auf Linux?
… das ist ein Editor für Windows, der …
Ja, mit Hilfskonstruktionen ist es möglich, Notepad++ zum Laufen zu
bringen
… mit wine zum funktionieren gebracht werden muss. Habe ich noch nicht
versucht, werde es aber demnächst mal tun.
(oder die Alternative "Notepadqq" zu nutzen).
Ist zumindest in den Debian-Repos nicht zu finden.
Aber wie ich
meiner gestrigen Antwort auf Dein Posting schon schrieb: Es handelt
sich ja um einen Texteditor, und ich kann mir im Moment nicht
vorstellen, wie damit LO-Dateien im odt-Format geladen und bearbeitet
werden sollen.
Das ist der Punkt. Die Textdaten müssen extrahiert werden, was einigermaßen
komfortabel nur für ODT-Daten funktioniert und auch nur hier automatisiert
werden kann. Das ist vermutlich der einfachere Teil des Workflows. Word-Daten
sind komplett binär, das ist nix mit automatisch den Textteil extrahieren.
Erst nach dem Extrahieren ist es möglich mit einem Tool wie recode oä zu
konvertieren.
Ab hier wird es beliebig komplex. Nicht nur die Codierung des Textes nuss
betrachtet werden, sondern auch die Umgebung (Sprachumgebung, Codierung,
Betriebssystem, …) auf dem Rechner, der die Umkodierung machen soll. Der
Texteditor, mit dem die Kontrollen (die sind zwingend) gemacht werden ist ein
Faktor. Bzw kann er Unicode, schaltet er automatisch zwischen den Codierungen
um, welcher Zeichensatz kommt zur Darstellung zum Einsatz. Nicht ganz
unwichtig ist auch, ob die Daten dann zwischen Win, Linux, iOS hin und her
geschoben werden. Da wird teilweise schon mal automatisch konvertiert, je
nachdem welches Transportmittel eingesetzt wird.
Diese Ausführlichkeit, hat einen einfachen Grund: Ich habe schon mit solch
einem Problem gekämpft und dann frustriert aufgegeben. Und das waren bereits
Textdaten, die allerdings von Windows nach Linux transferiert wurden.
Falls du es doch versuchen willst, läuft das ganze auf Scripten raus.
Werkzeuge mit denen du dann arbeiten müsstest wären
"gzip" / "gunzip" um die SO-/LO-Daten zu entpacken
"find" um sie zu finden und sie dann mit
"mv" oder "cp" zu verschieben oder kopieren
Für das Ersetzen der seltsamen (eigentlich regulären Unicode-) Zeichen kommen
diverse Werkzeuge in Frage: "tr", "sed", "recode" und wahrscheinlich noch ein
paar.
Aus meiner Sicht die einfachste Methode, allerdings auch die mit dem meisten
Stumpsinn (und deshalb durchaus fehleranfäälig):
Mit LO öffnen und über Suchen/ersetzen (eventl mit RegEx-Hilfe) die Dateien
einzeln zu bearbeiten. Danach sofort als PDF/A exportieren. PDF/A deshalb,
weil es ein ISO-genormtes Archivformat ist,
siehe https://de.wikipedia.org/wiki/PDF/A