Anführungszeichen durch typographische Anführungszeichen ersetzt

Hallo,

ich experimentiere zur Zeit mit Texten, die per OCR erfasst werden. In den
Texten ist auch wörtliche Rede dargestellt. Die Texte sind zwar auf
deutsch, haben aber französische Anführungszeichen. Bei der Erkennung
werden dann aus einem öffnenden '<<' tatsächlich zwei "kleiner als"-
Zeichen, das schließende '>>' wird korrekt erkannt und auch im Text
eingesetzt.

Ich ersetze in einem Texteditor die "falschen" Zeichen, durch normale obere
Anführungszeichen. Mit der Extension Writer2Epub wird dann ein E-Buch
erstellt, das in Calibre soll.

Ich hätte gerne vor der Erstellung des E-Buchs, die Anführungszeichen durch
die typographisch korrekten Zeichen ersetzt. Leider kann Writer das jedoch
nur bei der Eingabe automatisch machen. Zumindest finde ich nichts anderes.

Wie kann ich das automatisieren? Ich habe nämlich keine Lust im gesamten
Text die Anführungszeichen zu Suchen und von Hand zu ersetzen. Denn dann
werden auch die typographischen eingesetzt. Aber ich müsste zuerst alle
Zeichen vor einem Wortbeginn suchen und ersetzen und dann nochmals alle
nach einem Wortende. So sind jedenfalls in Writer öffnende und schließende
Anführungszeichen definiert.

Hallo, Matthias!

ich experimentiere zur Zeit mit Texten, die per OCR erfasst werden.
In den Texten ist auch wörtliche Rede dargestellt. Die Texte sind
zwar auf deutsch, haben aber französische Anführungszeichen. Bei der
Erkennung werden dann aus einem öffnenden '<<' tatsächlich zwei
"kleiner als"- Zeichen, das schließende '>>' wird korrekt erkannt und
auch im Text eingesetzt.

Ich ersetze in einem Texteditor die "falschen" Zeichen, durch normale
obere Anführungszeichen. Mit der Extension Writer2Epub wird dann ein
E-Buch erstellt, das in Calibre soll.

Ich hätte gerne vor der Erstellung des E-Buchs, die Anführungszeichen
durch die typographisch korrekten Zeichen ersetzt. Leider kann Writer
das jedoch nur bei der Eingabe automatisch machen. Zumindest finde
ich nichts anderes.

Wie kann ich das automatisieren? Ich habe nämlich keine Lust im
gesamten Text die Anführungszeichen zu Suchen und von Hand zu
ersetzen. Denn dann werden auch die typographischen eingesetzt. Aber
ich müsste zuerst alle Zeichen vor einem Wortbeginn suchen und
ersetzen und dann nochmals alle nach einem Wortende. So sind
jedenfalls in Writer öffnende und schließende Anführungszeichen
definiert.

Es gibt zwar reguläre Ausdrücke in Writer, aber die arbeiten nicht mit
Sonderzeichen zusammen, zu denen Anführungszeichen gehören. Mit einem
Trick kannst du das gewünschte Ergebnis dennoch erzielen:

Ersetze zu nächst alle Anführungszeichen durch schließende
Anführungszeichen (kannst einfach ein ersetztes Anführungszeichen
kopieren und im Dialog „Suchen und Ersetzen“ einfügen). Anschließend
ersetzt du alle Zeichenfolgen (Leerstelle+schließendes
Anführungszeichen) durch (Leerzeichen+öffnendes Anführungszeichen).

Wenn der Text korrekt formatiert ist (sprich vor dem öffnenden
Anführungszeichen immer eine Leerstelle und vor dem schließenden
Anführungszeichen nie eine Leerstelle ist), dann hast du damit das
gewünschte Ziel erreicht.

Gruß,
Christian.

Hallo Christian,

Hallo, Matthias!

snip

Es gibt zwar reguläre Ausdrücke in Writer, aber die arbeiten nicht mit
Sonderzeichen zusammen, zu denen Anführungszeichen gehören.

Da bin ich mir nicht sicher, hab's aber nicht versucht.

Mit einem
Trick kannst du das gewünschte Ergebnis dennoch erzielen:

Stimmt

Ersetze zu nächst alle Anführungszeichen durch schließende
Anführungszeichen (kannst einfach ein ersetztes Anführungszeichen
kopieren und im Dialog „Suchen und Ersetzen“ einfügen). Anschließend
ersetzt du alle Zeichenfolgen (Leerstelle+schließendes
Anführungszeichen) durch (Leerzeichen+öffnendes Anführungszeichen).

Das klappt so nicht, Grund siehe unten.

Wenn der Text korrekt formatiert ist (sprich vor dem öffnenden
Anführungszeichen immer eine Leerstelle und vor dem schließenden
Anführungszeichen nie eine Leerstelle ist), dann hast du damit das
gewünschte Ziel erreicht.

Nee. Mein Informatik-Prof hätte jetzt gesagt: "Sie vergessen den 3. und 4.
Quadranten."
Soll heißen: Du hast nicht beachtet, dass es am Absatzanfang (Zeilenanfang)
und am Absatzende (Zeilenende) auch Anführungszeichen geben kann, genauso
wie unmittelbar vor einem Satzzeichen (Komma, Gedankenstrich etc). Also
keine Leerzeichen vor und nach den Anführungszeichen. Und um das abzufangen
kommst du dann um RE nicht drumherum.

Aber deine Mail hat mich zu folgender Idee geführt: Ich habe ja bereits
französische Anführungszeichen, sowohl öffnende als auch schließende.
Außerdem habe ich Größer- bzw Kleinerzeichen in jeweils doppelter
Ausführung, die von der OCR nicht richtig erkannt wurden. Ich korrigiere
zuerst die Größerzeichen indem ich mir ein korrektes französisches
öffnendes Anführungszeichen in den Puffer hole. Dann die Größerzeichen
markiere und im Suchen+Ersetzendialog die französische Anführungszeichen
einfüge. Analog gehe ich vor bei den schließenden Anführungszeichen. Dann
habe ich zwar französische Zeichen, aber eine korrekte Darstellung. Dann an
einem beliebigen Satz die Ersetzung von Hand machen, jetzt habe ich
korrekte typographische Zeichen. Und dann analog zur vorherigen
Ersetzungsaktion mit den Größer-/Kleinerzeichen die französischen durch
deutsche Anführungszeichen ersetze.

Danke für die Ideenlieferung.