[Draw] Import PDF, texte introuvable

Bonjour,

Pourquoi est-ce que dans certains documents PDF "externes" que j'ouvre avec Draw, je ne peux pas retrouver les textes corrects, ceux-ci sont bien dans des zones de texte mais remplacés par différents caractères sans sens de phrase ?
(pourtant ce ne sont pas des PDF issus de scans)

D'ailleurs dans ces mêmes documents, les recherches de texte dans un lecteur PDF sont toujours sans résultat.

En lien un exemple de pdf : https://www.cjoint.com/c/JAniunAGujB

Merci

----- Mail original -----

De: "Stéphane Santon" <m.libreoffice@santonum.eu>
À: "Liste libOo" <users@fr.libreoffice.org>
Envoyé: Lundi 13 Janvier 2020 09:21:55
Objet: [fr-users] [Draw] Import PDF, texte introuvable

Bonjour,

Pourquoi est-ce que dans certains documents PDF "externes" que
j'ouvre
avec Draw, je ne peux pas retrouver les textes corrects, ceux-ci sont
bien dans des zones de texte mais remplacés par différents caractères
sans sens de phrase ?
(pourtant ce ne sont pas des PDF issus de scans)

D'ailleurs dans ces mêmes documents, les recherches de texte dans un
lecteur PDF sont toujours sans résultat.

En lien un exemple de pdf : https://www.cjoint.com/c/JAniunAGujB

Merci

hello la période est échue pour toi (noel et les santons)

plus sérieusement, ce document doit être sorti de la tête
d'un macounet pervers utilisant des produits daubés ...

désolé, mais j'ai essayé en ligne de commande et je n'ai rien
obtenu d'exploitable, il ne reste plus qu'à passer par de l'ocr

bonne journée

@+
bernard

Bonjour,
Ce document utilise des polices de type 3, encodées de manière non-standard. On ne peut en extraire aucun texte, ni dans Draw ni même dans le lecteur PDF. Il se peut que les auteurs de ce document aient volontairement employé des polices spéciales ou des sous-ensembles incomplets de polices afin d'empêcher le copier-coller de texte ou la réédition du pdf.
Le problème est à la source, et Libreoffice n'y peut rien du tout.
RC

----- Mail original -----

De: "Stéphane Santon" <m.libreoffice@santonum.eu>
À: "Liste libOo" <users@fr.libreoffice.org>
Envoyé: Lundi 13 Janvier 2020 09:21:55
Objet: [fr-users] [Draw] Import PDF, texte introuvable

Bonjour,

Pourquoi est-ce que dans certains documents PDF "externes" que
j'ouvre
avec Draw, je ne peux pas retrouver les textes corrects, ceux-ci sont
bien dans des zones de texte mais remplacés par différents caractères
sans sens de phrase ?
(pourtant ce ne sont pas des PDF issus de scans)

D'ailleurs dans ces mêmes documents, les recherches de texte dans un
lecteur PDF sont toujours sans résultat.

En lien un exemple de pdf : https://www.cjoint.com/c/JAniunAGujB

Merci

hello la période est échue pour toi (noel et les santons)

:slight_smile:

plus sérieusement, ce document doit être sorti de la tête
d'un macounet pervers utilisant des produits daubés ...

désolé, mais j'ai essayé en ligne de commande et je n'ai rien
obtenu d'exploitable, il ne reste plus qu'à passer par de l'ocr

Merci.

Je ne cherche pas à récupérer le texte, mais simplement à comprendre pourquoi (et peut-être pour conseiller l'adjoint à ma commune).

Est-ce un problème de format, de polices manquantes, de codage spécifique à des logiciels propriétaires (daube ou haut de gamme je ne sais pas...), ... ?

Merci

Merci pour ces infos.

Donc une police "de type 3" :
- est-elle sur l'ordi car imprimante Postscript, donc sur le soft de mise en page, et il vaut mieux ne pas la choisir ?
- est-ce une gamme de polices utilisées par un soft en particulier ?
- est-ce un format d'export PDF seulement ?

Merci

----- Mail original -----

De: "Stéphane Santon" <m.libreoffice@santonum.eu>
À: "Liste libOo" <users@fr.libreoffice.org>
Envoyé: Lundi 13 Janvier 2020 09:21:55
Objet: [fr-users] [Draw] Import PDF, texte introuvable

Bonjour,

Pourquoi est-ce que dans certains documents PDF "externes" que
j'ouvre
avec Draw, je ne peux pas retrouver les textes corrects, ceux-ci sont
bien dans des zones de texte mais remplacés par différents caractères
sans sens de phrase ?
(pourtant ce ne sont pas des PDF issus de scans)

D'ailleurs dans ces mêmes documents, les recherches de texte dans un
lecteur PDF sont toujours sans résultat.

En lien un exemple de pdf : https://www.cjoint.com/c/JAniunAGujB

Merci

hello la période est échue pour toi (noel et les santons)

plus sérieusement, ce document doit être sorti de la tête
d'un macounet pervers utilisant des produits daubés ...

PDFCreator Version 0.9.5, c'est plutôt windows... d'aillerus pas très à jour pour un fichier de 2018 !
C'est une police type 3 incluse dans le pdf

désolé, mais j'ai essayé en ligne de commande et je n'ai rien
obtenu d'exploitable, il ne reste plus qu'à passer par de l'ocr

de fait rien d'exploitable

bonne journée

@+
bernard

Gérard

Bonjour,
Oui, l'export par pdfcreator est peut-être responsable du souci, pas sûr. La police de type 3 est dans l'ordi et incorporée dans le fichier pdf ; quand on imprime cette police est envoyée à l'imprimante (ça peut être long).
Essaye de faire composer le texte dans une police assez standard (genre Arial, Helvetica) pour voir si ça sort mieux.
RC

Bonsoir,

Il existe une solution pour modifier ce fichier et obtenir quelque chose d'à peu près "potable" qu'il est possible de retravailler avec Draw.
Pour cela il faut avoir installé au préalable le logiciel Inkscape. J'ai utilisé la version : Inkscape Portable 0.92.4 fr pour windows, pas testé sur
ma distri Linux (Debian 10) mais cela devrait fonctionner aussi avec une version Linux de Inkscape.
Petit lien pour récupérer cette version : http://www.netfox2.net/modules/wfdownloads/singlefile.php?cid=252&lid=1462

Processus appliqué :
1 - J'ai téléchargé le PDF original sur le site de la mairie de Bussac sur Charente.
2 - Ouvert Inkscape, puis "fichier - ouvrir" et on sélectionne  le document précédemment téléchargé.
3 - Une fenêtre "Préférences pour l'importation d'un fichier PDF" s'ouvre.
      Par défaut  2 cases à cocher sont activées :
           Remplacer les polices du Pdf ......
           Incorporer les images .......
      * Les décocher.
      * Puis sélectionner le bouton radio " Import Poppler / Cairo" à la place de "Importation interne".
      * Mettre la "précision" en bas à 2.
4 - Valider et attendre un petit moment. Et, c'est magique on obtient le document avec le texte.
      (Attention il n'y a pas de zone de texte, c'est du caractère par caractère.
5 - Ensuite il faut "enregistrer sous"  .PDF et dans la fenêtre qui s'ouvre sélectionner Pdf 1.4 à la place de 1.5.
     (J'ai pas testé cette dernière version - à voir). On peut aussi choisir d'enregistrer en . SVG.
     Ne surtout pas prendre le format .ODG, ça ne fonctionne pas.
6 - Ouvrir avec draw (pour moi cela a parfaitement fonctionné).

Pour info voici ce que l'on trouve à la fin du fichier (ouvert avec notepad ++) :
2 0 obj
<</Producer(GPL Ghostscript 9.10)
/CreationDate(D:20180831141308Z00'00')
/ModDate(D:20180831141308Z00'00')
/Author(bcrampegay)
/Creator(PDFCreator Version 0.9.5) <---- Version 0.9.5 en 2018 / Pas à la page le garçon version date de 2007.
/Title(Q:\\echange\\Mathieu Com cdc\\RANDO Page 27 \340 40.pdf)
/Subject()
/Keywords()>>endobj

Bon courage, cordialement,
Patrick

Bonjour,

Y-a-t-il une volonté quelconque des auteurs de protéger le texte ?

Je pense que non. Plutôt un manque d'info sur les moyens utilisés.

Bonjour,

Pour info voici ce que l'on trouve à la fin du fichier (ouvert avec notepad ++) :
<</Producer(GPL Ghostscript 9.10)
/Creator(PDFCreator Version 0.9.5) <---- Version 0.9.5 en 2018 / Pas à la page le garçon version date de 2007.
/Title(Q:\\echange\\Mathieu Com cdc\\RANDO Page 27 \340 40.pdf)

Pour info, j'installe encore un PDFcreator 0.9.7 car c'est le dernier qui faisait le job et rien que le job, et qui n'avait pas encore intégré PDFArchitect et plein de cochonneries comme ça.

Bonjour,

Perso je n'installe pas PDFCreator car totalement inutile.
Sur Win j'utilise ce qui existe : Imprimer -> imprimante : Microsoft print to PDF.
D'ailleurs, et cela m'a fait sourire, à partir du PDF téléchargé sur le site de la mairie : on l'ouvre avec Acrobat Reader puis on l'imprime avec cette imprimante (crosoft).
Et, on peut alors ouvrir le nouveau fichier avec draw sans peine, LOL ;).
Je n'avais pas pensé à cette méthode.
Cordialement

Patrick

Bonjour Stéphane
en l'occurence quel est le logiciel de mise en page utilisé ? J'ai du
mal à croire que l'export PDF en lui-même soit responsable.Par contre
si la conception se fait avec une police exotique, le remplacement est
plus hasardeux, surtout si, comme l'explique Bob, le type de Police est
voué à l'échec dès le départ...
Y-a-t-il une volontée quelconque des auteurs de protéger le texte ?
ClaireLe lundi 13 janvier 2020 à 10:29 +0100, Stéphane Santon a écrit :

Bonjour,

J'ai constaté que les PDF créés avec Microsoft print to PDF sont beaucoup plus lourds que ceux créés avec PDFCreator (qui permet en plus beaucoup d'autres choses).

Cordialement,

Henri

Bonjour,

J'ai constaté que les PDF créés avec Microsoft print to PDF sont beaucoup plus lourds que ceux créés avec PDFCreator (qui permet en plus beaucoup d'autres choses).

Cordialement,

Henri

Bonjour,

Perso je n'installe pas PDFCreator car totalement inutile.

Moi ça me rend service tous les jours.

Sur Win j'utilise ce qui existe : Imprimer -> imprimante : Microsoft print to PDF.

Sur "Win" ??
Pas ça sur mes Windows (7 et 8.1).
Je n'ai que "Microsoft XPS Document Writer.
Et c'est totalement incapable de me sortir un PNG ou un SVG comme sait le faire PDFCreator.

D'ailleurs, et cela m'a fait sourire, à partir du PDF téléchargé sur le site de la mairie : on l'ouvre avec Acrobat Reader puis on l'imprime avec cette imprimante (crosoft).
Et, on peut alors ouvrir le nouveau fichier avec draw sans peine, LOL ;).
Je n'avais pas pensé à cette méthode.

Je fais parfois ça avec PDFCreator pour faire sauter des protections de PDF.

Peut-être un peu moins lourd et tout aussi pratique : https://fr.pdf24.org/

Je l'utilise en remplacement de PDF Creator depuis des années. J'avais également constaté que la solution de Microsoft sort des fichiers plus volumineux.

Cordialement,
David