Index lexical fichier de concordance avec caractères unicodes sous 3.4.0

Bonjour,

Si je prends les caractères suivants (mélange de cyrillique d'hébreu et d'arabe et de diacritiques diverses):

???D.h.?

issues de la police times new roman en unicode sous windows seven...

je les place dans un document comme si elles formaient un mot entier et je les copie dans le presse papier
je crée un index lexical avec un fichier de concordance :

index et tables>index>type:index lexical>
nouveau (donnez un nom, enregistrez au format .sdi) > une

fenetre s'ouvre avec une colonne "terme recherché" coller les lettres précédemment copiées comme un seul mot, ne pas respecter la case ni le mot entier pour être sur de la recherche> OK > Réinitialiser > Ok

Cela ne fonctionne pas

par contre si je crée l'index lexical, pour ces caractères, directement dans le document sans passer par un fichier de correspondance, cela fonctionne

vous reproduisez?

Bonne soirée,

Luc

Bonjour

Il serait plus facile de (tenter de) reproduire, si tu pouvais joindre un
document comprenant ces caractères.

Soit directement via nabble, soit via un service cf. http://www.cijoint.fr

Cordialement
Pierre-Yves

Le fichier comportant deux lignes avec les caracatères unicodes, sans index:
*test_index_lexical.odt* :http://www.cijoint.fr/cjlink.php?file=cj201106/cijSnQopm9.odt

luc wrote:

merci pour ce lien de dépôt de fichiers, très pratique...

A ton service... :slight_smile:

Juste une remarque : pour la pérennité du "fil" il est sans doute préférable
de passer par Nabble (conservation des fichiers).

Sur le fond : je reproduis sous XP LibO 3.4.1RC1

La vérification est d'ailleurs rapide (dès lors qu'on dispose du document
comprenant les caractères) car il suffit d'éditer le fichier de concordance
pour voir que les caractères sont transformés : ???ll???

La concordance ne peut donc se faire bien entendu. Je me demande s'il ne
s'agit pas d'une "limitation de fonctionnement" plutôt qu'un bug, s'agissant
d'un fichier texte (je fais référence au fichier .sdi).

Cela dit, je n'ai aucune expérience d'utilisation de ce type de langues...
j'espère donc être contredit :slight_smile:

Quoiqu'il en soit je n'ai pas trouvé d'Issue pour LibO mais celle-ci pour
OOo qui me semble être proche :
http://openoffice.org/bugzilla/show_bug.cgi?id=67649

Cordialement
Pierre-Yves

Eh bien disons que si l'on produit un document (on va utiliser une police unicode si l'on souhaite partager le fichier avec des collaborateurs dont certains ont windows, d'autres Linux et d'autres Mac) avec des mots russes (par exemple) en alphabet cyrillique , etc... et que l'on veuille indexer ces mots, c'est faisable en les indexant directement dans le texte si j'ose dire, mais l'avantage du fichier de concordance par rapport à cette technique, c'est que l'on peut facilement désindexer un terme en l'enlevant du fichier. Par contre, avec la méthode qui consiste à indexer chaque mot dans le document, si l'on veut ensuite les désindexer il faut reproduire à l'inverse l'opération, même si un mot est cité à l'identique plusieurs fois (on peut indexer un même mot une seule fois pour tout le document, mais quand il faut désindexer, il faut le faire à chaque fois... le recours à un fichier de concordance permet d'éviter ces étapes fastidieuses).

Il faudrait voir si cela n'arrive qu'avec Windows comme OS. Mais avec Seven il me semblait que les problèmes d'interprétation de l'unicode par rapport à des OS comme Linux ou Mac était résolu...

Sinon, merci, l'Issue OOo que tu cites reproduit exactement le problème...

Bonne journée,

Luc