rechercher-remplacer avec format de caractères

Bonjour,

Je suis en train de taper un texte à partir d'un livre du site Gallica, qui contient beaucoup de dialogues. Je dispose de la version scannée, qui me sert de référence, et du document txt que je corrige et mets en forme.
Dans le scan original, les noms des intervenants contiennent des majuscules et des petites majuscules. Par exemple ACHILE TALON : le A de ACHILE et le T de TALON sont en majuscules et le reste (CHILE et ALON) en petites minuscules.
Pour la mise en forme avec Writer j'utilise le style de caractères par défaut pour le A et T en majuscule et un style de caractère avec une police de taille 80% pour simuler les petites majuscules. [ce document sera ensuite converti en epub et la plupart des liseuses ne gèrent pas les petites majuscules, d'où ma technique]. J'ai enregistré cet ACHILLE TALON correctement formaté en auto-texte. Idem pour les autres intervenants des dialogues.

Evidemment,dans le document texte,tout est en majuscules.
Donc je sélectionne ACHILE TALON, ou ses compères, et fait ma mise en forme en utilisant des autotextes enregistrés avec les bons styles.
C'est très long (il y en a des milliers).

Je cherche à automatiser cette opération.
Je ne vois pas de méthode par rechercher/remplacer, les précisions sur les formats de caractères n'étant pas utilisables.
Quelqu'un aurait-il une idée ?

Agnès S.

bonjour,

    puisque vous êtes sous linux pourquoi ne pas employer tesseract ocr
    et sed ?

    slt
    bernard

Bonjour,

Je suis en train de taper un texte à partir d'un livre du site
Gallica, qui contient beaucoup de dialogues. Je dispose de la version
scannée, qui me sert de référence, et du document txt que je corrige
et mets en forme.
Dans le scan original, les noms des intervenants contiennent des
majuscules et des petites majuscules. Par exemple ACHILE TALON : le A
de ACHILE et le T de TALON sont en majuscules et le reste (CHILE et
ALON) en petites minuscules.
Pour la mise en forme avec Writer j'utilise le style de caractères
par défaut pour le A et T en majuscule et un style de caractère avec
une police de taille 80% pour simuler les petites majuscules. [ce
document sera ensuite converti en epub et la plupart des liseuses ne
gèrent pas les petites majuscules, d'où ma technique]. J'ai
enregistré cet ACHILLE TALON correctement formaté en auto-texte. Idem
pour les autres intervenants des dialogues.

Evidemment,dans le document texte,tout est en majuscules.
Donc je sélectionne ACHILE TALON, ou ses compères, et fait ma mise en
forme en utilisant des autotextes enregistrés avec les bons styles.
C'est très long (il y en a des milliers).

Je cherche à automatiser cette opération.
Je ne vois pas de méthode par rechercher/remplacer, les précisions
sur les formats de caractères n'étant pas utilisables.
Quelqu'un aurait-il une idée ?

Agnès S.

bonjour,

    puisque vous êtes sous linux pourquoi ne pas employer tesseract ocr
    et sed ?

je ne vois pas trop ce que peut faire sed dans ce cas...
c'est possible avec l'enregistreur de macro
-chercher achile talon
-supprimer
-insertion autotexte 'achil'

en l'attribuant à un raccourci clavier (n'utilisant que très rarement base, je mets F4) cela va assez vite.
Si vous êtes à l'aise avec les macros, vous pouvez faire un tableau des noms à rechercher et à remplacer

Gérard

Bonsoir

Pour les logiciels linux et/ou les macros, je ne sais pas.
Par chez moi, j'ai installé l'extension Recherche Alternative (AltSearch) qui, me semble-t-il, permet de préciser le style de paragraphe ou de caractère à rechercher.
  http://extensions.libreoffice.org/extension-center/alternative-dialog-find-replace-for-writer

@+
Luc

Merci Bernard, c'est une bonne piste.
J'avais bien flairé qu'il faudrait passer par une macro mais comme je n'en ai pas écrit depuis des années je freinais des 4 fers. Et je ne pensais pas que l'enregistreur de macro serait à la hauteur.
Et bien si! Donc pour l'instant j'ai une macro pour remplacer ACHILE TALON par son autotexte formaté.
Me reste à "faire un tableau des noms à rechercher et à remplacer".
Là, il faut que je réactive mes ex-compétences. Si tu as une piste...

Agnès

Bonjour Luc et merci,

Ta réponse m'a incitée à aller chercher dans les recoins de
AltSearch, que j'utilisais par ailleurs pour des tâches plus triviales.
Et j'ai trouvé la solution !

Rechercher : ACHILE TALON
Remplacer : A\C{Style par défaut}CHILE\C{simili petites majuscules} T\C{Style par défaut}ALON\C{simili petites majuscules}
où simili petites majuscules est un style de caractère que j'ai crée.

Il me reste à explorer la commande par lot pour faire tous les remplacements nécessaires.
Ça devrait pouvoir m'éviter de faire une macro.

Encore merci.
Agnès

Bonjour,

Merci pour cette réponse mais je ne vois pas comment ça permettra de résoudre mon problème.

Tesseract-ocr c'est pour faire la reconnaissance de caractères à partir du scan, non ? C'est déjà fait par Gallica (fichier txt) et je doute que tesseract fasse mieux car le scan est tout pourri et franchement l'ocr ce n'est pas le point fort de linux...

Sed, sauf erreur, ne me permettra pas d'agir sur le fichier odt.
Et sur un fichier texte la question des formats de caractères ne se pose pas.
Mais j'ai peut-être tout faux car je n'ai jamais utilisé sed.
Peux-tu m'en dire plus ?

Agnès

PS : je t'ai attribué par erreur l'idée de l'enregistreur de macro que l'on doit à Luc (si je ne me trompe pas à nouveau)

Ouh là là ! Rendons à Cesar ce qui lui appartient. C'est, si je ne me trompe pas à nouveau, à Gérard que je dois la piste de la macro et non pas à Bernard ou Luc.

Agnès