copie de texte issue d'un pdf génère un saut de paragraphe tous les 2 mots

Ocleyr2lalune · February 1, 2019, 8:44pm

Bonjour à tous

je cherche une solution à la portée de tous, y compris des non technophiles permettant de contourner le problème suivant.

Vous connaissez Amnesty ? Sans faire un débat sur cette ONG, ils proposent d'envoyer des courriers de façon urgente, par exemple pour lutter contre la peine de mort.
Décision en 2019, les modèles de lettre sont intégrés dans un document pdf, charge à la personne qui veut envoyer la lettre de copier le texte dans son traitement de texte préféré.

Exemple https://www.amnesty.org/fr/documents/asa17/9729/2019/fr/0

Oui mais voilà, un copier coller de la version française provoque dans Writer 6.1.4.2(Fedora 29) un saut de ligne au mieux tous les 2 mots.
Sur le pdf en anglais ou en espagnol, c'est bien plus gérable...

Les gens qui conçoivent le fichier en français sont probablement moins scrupuleux coté interopérabilité, standard pdf. J'essaierai aussi de faire avancer les choses de ce coté là mais c'est pas gagné !

Bref, si vous avez une idée ....

Merci bien

Claire

Mamin_Luc · February 1, 2019, 8:56pm

Bonsoir

Avec LO 6.0.7.3, sous windows 10, le simple copié/collé du contenu du document ASA1797292019FRENCH.PDF dans writer n'affiche pas de retours à la ligne intempestifs.
https://framadrop.org/r/Ag-b8q0IDC#0F7oQZMGNVFxs7ArhYLiIUvX20wEJKkRNJ7nw8gPi+w=

@+
Luc

leleu · February 1, 2019, 9:00pm

Ouvrir avec le lecteur de votre installation, et imprimer. PDF n'estpas prévu pour être modifier, et ne résiste pas aux traitements de texte....

Je la 01/02/2019 21:44, Ocleyr2lalune skribis :

Ocleyr2lalune · February 1, 2019, 9:05pm

sur le principe du pdf, je suis bien d'accord. et pourtant le fichier pdf est fourni pour l'usage que j'ai décris...

Merci quand même

Claire

Ocleyr2lalune · February 1, 2019, 9:06pm

Merci Luc, effectivement, j'ai l'impression que c'est le lecteur pdf qui est en cause.... Là j'utilise Evince...

Ocleyr2lalune · February 1, 2019, 9:21pm

Après de nouveaux essais, c'est le visionneur de Firefox qui est en cause 64.0.2/x64)sujet clos !

merci de vos réponses rapides.

Claire

Jmpierre · February 1, 2019, 10:12pm

Bonjour,
Souvent, la mise en page d'un pdf collé est un peu mieux respectée par un Collage spécial > Texte non formaté.

Jean-Michel PIERRE
Tél : 06.19.55.73.22

Bernard_Schoenacker · February 2, 2019, 5:27am

----- Mail original -----

De: "Ocleyr2lalune" <ocleyr2lalune@zaclys.net>
À: users@fr.libreoffice.org
Envoyé: Vendredi 1 Février 2019 21:44:52
Objet: [fr-users] copie de texte issue d'un pdf génère un saut de paragraphe tous les 2 mots

Bonjour à tous

je cherche une solution à la portée de tous, y compris des non
technophiles permettant de contourner le problème suivant.

Vous connaissez Amnesty ? Sans faire un débat sur cette ONG, ils
proposent d'envoyer des courriers de façon urgente, par exemple pour
lutter contre la peine de mort.
Décision en 2019, les modèles de lettre sont intégrés dans un
document
pdf, charge à la personne qui veut envoyer la lettre de copier le
texte
dans son traitement de texte préféré.

Exemple https://www.amnesty.org/fr/documents/asa17/9729/2019/fr/0

Oui mais voilà, un copier coller de la version française provoque
dans
Writer 6.1.4.2(Fedora 29) un saut de ligne au mieux tous les 2 mots.
Sur le pdf en anglais ou en espagnol, c'est bien plus gérable...

Les gens qui conçoivent le fichier en français sont probablement
moins
scrupuleux coté interopérabilité, standard pdf. J'essaierai aussi de
faire avancer les choses de ce coté là mais c'est pas gagné !

Bref, si vous avez une idée ....

Merci bien

Claire

bonjour,

pour remplir un document pdf sans le détruire, je conseille
d'installer xournal ...

merci
slt
bernard

andriant.sandy · February 2, 2019, 8:10am

Bjr,

Je n'ai pas ce bug
Ci-dessous c/c du chapeau en collage spécial texte non formaté sans aucune retouche.

CHINE. UN CANADIEN CONDAMNÉ À MORT À L’ISSUE D’UN SECOND PROCÈS EXPÉDITIF

Robert Schellenberg, ressortissant canadien, a été condamné à mort après avoir été déclaré coupable de trafic de stupéfiants lors de son second procès. Arrêté en 2014, il a été déclaré coupable et condamné à 15 ans d’emprisonnement une première fois par le tribunal populaire intermédiaire municipal de Dalian le 20 novembre 2018. Il a fait appel de ce jugement et, à l’issue de son nouveau procès qui a eu lieu le 14 janvier 2019, il a été déclaré coupable de chefs d’accusation plus graves ayant trait au trafic de stupéfiants et condamné à mort. D’après Mo Shaoping, avocat membre du cabinet qui représente Robert Schellenberg, l’annoncer d’une condamnation à mort en même temps que le verdict de culpabilité est inédite en Chine.

PASSEZ À L’ACTION : ENVOYEZ UN APPEL EN UTILISANT VOS PROPRES MOTS OU EN VOUS INSPIRANT DU MODÈLE DE LETTRE CI-DESSOUS

LO Version: 6.0.7.3 (x64)
Win10

Cordialement
Sandy-Pascal Andriant

Gilles11 · February 3, 2019, 1:19pm

Bonjour

le 26 décembre dernier, à propos d'édition de pdf, j’indiquais (extraits) :

    le pdf est un logiciel de dessin vectoriel dont l'unité de travail
    est la page. Il positionne très précisément le texte en x,y dans la
    page, en tenant compte de son encombrement exact (selon la police,
    le corps, la graisse...). Il ignore le contenu et des concepts de
    structuration comme titre, note, folio, titre courant... lui sont
    étrangers. Il ne "sait" pas qu'un mot est coupé en deux (césure) et
    que l'autre moitié est sur la ligne suivante (et pire, la page
    suivante).
    Il existe des outils pour éditer le pdf mais ils sont en général
    chers et ne peuvent s'affranchir des contraintes ci-dessus.

Si on veut modifier le contenu il faut donc _exporter_ le pdf dans
un format _modifiable_.

[...]

    Si on veut récupérer le texte - plutôt pour une document long - et
    restructurer, refaire la mise en page, changer de police etc. il
    faut un outil spécialisé :

[...]

    - une autre bonne solution est d'utiliser le logiciel Open-Source,
    en français, _Calibre_ [https://calibre-ebook.com/fr] (qui est un
    gestionnaire de bibliothèque d'e-books) qui dispose d'outils de
    conversion puissants - et paramétrables - entre autres depuis le pdf
    vers epub, docx, rtf, html, etc.
    On peut utiliser les réglages par défaut mais si on s'investit dans
    le paramétrage on peut obtenir des résultats excellents.
    Documentation ici : https://manual.calibre-ebook.com/fr/conversion.ht

Ça ne mange pas de pain d'essayer - rapidement et facilement avec les réglages par défaut - d'autant plus que Calibre est un excellent logiciel de gestion de bibliothèque d'e-book qui va servir un jour ou l'autre.

Cordialement

Gilles

Ocleyr2lalune · February 3, 2019, 5:15pm

Bonjour Gilles

le pdf, comme son nom l'indique n'est pas un logiciel mais un format. Plus précisément c'est une image. Une image n'intègre pas des zones de textes à moins de faire de l'ocr (reconnaissance de caractères). Reste qu'on est d'accord sur l'ensemble.
Le pdf a plusieurs générations (comme pour tout format comme ODF 1.1 et 1.2). Il est aussi relié à un standard avec plusieurs niveaux. Le PDF/A-1a étant le plus restrictif et le plus respectueux des normes d'accessibilité. Il ne tolère pas la transparence, est généré à partir de texte et doit permettre à un lecteur d'écran (pour mal-voyant par exemple) de lire le texte.
De fait si un lecteur d'écran arrive à lire un texte, on passe un stade par rapport à un "pdf d'une image" (exemple à partir d'un scanner !).

Selon l'outil utilisé pour convertir le document texte en pdf, on peut choisir, ou non, de respecter un standard. Si celui-ci n'est pas ou mal respecté alors on arrive aux problèmes que j'évoquais vendredi. A savoir que selon le logiciel employé le comportement varie.

Comme je l'ai précisé hier, pour moi ce sujet est clos :
- LibreOffice n'est nullement en cause
- le comportement est satisfaisant hors du lecteur pdf intégré à Firefox.

J'avais déjà utilisé Calibre pour faire ce genre de chose, mais je n'y pensais plus. Le résultat est pas mal, mais je sais d'avance que même si c'est rudimentaire et simple, c'est déjà trop pour le public en question....
Alors oui, un pdf n'est pas fait pour ça (récupérer un texte par copier/coller), mais là on est du coté de ceux à qui on n'a pas demandé leur avis et qui doivent faire avec.

Comme je le disais déjà, j'en ai déduit que j'ai 2 solutions :
l'immédiate : expliquer aux militants de mon groupe qu'il faut ouvrir ce pdf en dehors de firefox (et ça déjà, vu mon échange d'aujourd'hui c'est pas gagné !)

la plus longue : convaincre ceux qui font ce pdf : soit au pire de le générer mieux, soit de revenir les pieds sur terre et de proposer un document éditable (odt idéalement, mais ce serait Byzance !)

Merci en tout cas. L'intérêt sur cette question montre à quel point nous pouvons être nombreux à butter dessus. Si déjà l'on arrivait à faire comprendre qu'un pdf est une image....

Bonne soirée

Claire

gauste · February 3, 2019, 9:46pm

Bonjour,

le pdf, comme son nom l'indique n'est pas un logiciel mais un format.

OK

Plus précisément c'est une image. Une image n'intègre pas des zones de textes à moins de faire de l'ocr (reconnaissance de caractères).

Là, ça me parait très imprécis voire faux.
Une "image" : Image raster ou image vectorielle ? Grosse différence, et si l'on devait donner une réponse, ce serait plus proche de l'image vectorielle SVG que de l'image bitmap PNG.

'N'intègre pas de zone de textes"... Euh... je crois que c'est la toute première chose qu'intègre un PDF : des zones de texte, limitées à une ligne mais des zones de texte tout de même, sans avoir besoin d'OCR.

Ensuite ça peut intégrer des images bitmap, des images vectorielles 2D, des images 3D (volumiques), ...