import gros fichier csv

Bonjour,

J'ai repéré ce qui me semble être un bug :
je souhaite importer un gros fichier csv (125 000 lignes pour 5320 Ko
environ, séparateur ";"
Je suis sous W10 20H2
Si la dernière importation a utilisé le séparateur ";", tout va bien, très
rapidement, le csv est importé.

Par contre, si l'importation précédente a utilisé un autre séparateur, là,
LO patine, tourne en rond et rien ne se passe. Le gestionnaire de tâche
indique une consommation d'énergie très élevée, et malgré une longue
attente, impossible de reprendre la main. Il faut alors "tuer" la tâche dans
le gestionnaire de fichier ...

la mesure de contournement est d’extraire un court extrait du fichier csv
(avec le bloc-note windows par exemple) pour paramétrer le bon séparateur.
puis ensuite de reprendre l'importation du fichier complet qui se passe
alors bien.

Ce bug est-il répertorié, j'ai vu des choses sur le forum allemand, mais ma
connaissance de la langue est insuffisante pour savoir si c'est le même
problème ...
Bonne soirée à tous !
Christophe

Bonjour,

Bonjour,

J'ai repéré ce qui me semble être un bug :
je souhaite importer un gros fichier csv (125 000 lignes pour 5320 Ko
environ, séparateur ";"
Je suis sous W10 20H2

Il manque des informations pour pouvoir essayer de reproduire exactement le problème :
- quelle version de LibreOffice ?
- comment est réalisé l'import du fichier CSV ?

Si la dernière importation a utilisé le séparateur ";", tout va bien, très
rapidement, le csv est importé.

J'imagine (à confirmer) que tu ouvres le fichier CSV en double-cliquant sur le fichier dans l'explorateur de fichiers de W10. Tu devrais essayer depuis LO-Calc en ouvrant d'abord un fichier vide et en ajoutant une feuille à partir d'un fichier. Dans ce cas le dialogue d'import CSV s'ouvre et tu peux configurer l'import comme tu veux.

Bonne journée
JBF

Bonjour Jean Baptiste,

D'abord, merci de regarder mon souci ...
Effectivement j'avais oublié de donner la version de LO, information
indispensable, et je m'en excuse.
Je me suis rend compte très vite de cet oubli et ai modifié mon message.
Mais, malheureusement, cette modification n'a pas été visible de suite sur
le forum ...
Ma version précise est donc la suivante :
Version: 7.1.2.2 (x64) / LibreOffice Community
Build ID: 8a45595d069ef5570103caea1b71cc9d82b2aae4
CPU threads: 8; OS: Windows 10.0 Build 19042; UI render: Skia/Raster; VCL:
win
Locale: fr-FR (fr_FR); UI: fr-FR
Calc: threaded

J'ai tenté beaucoup de choses, j'ai en effet commencé par un double clic sur
le fichier csv, j'ai essayé également depuis LO calc, même comportement.
Pour reproduire mon pb, c'est simple :
télécharger le tableau "données-hospitalières-covid19-2021-05-01-19h09.csv"
par exemple pour aujourd'hui qui figure dans le site
https://www.data.gouv.fr/fr/datasets/donnees-hospitalieres-relatives-a-lepidemie-de-covid-19/
<https://www.data.gouv.fr/fr/datasets/donnees-hospitalieres-relatives-a-lepidemie-de-covid-19/>
Si le précédent import s'est fait avec le séparateur de champ du fichier à
importer (le ";" en l’occurrence), ça marche, sinon, ça tourne en rond et la
boite de dialogue d'import ne s'ouvre pas !
Voila ...
Encore merci de ton intervention,
Christophe

Bonjour

Je demandais depuis le départ ce qui justifiait la manipulation de si gros csv !!

Ces fichiers csv ne sont pas destinés a une manipulation dans Calc mais dans des outils de manipulation de données un peu plus adaptés...
Comme R par exemple

Claire

Bonsoir

Sous windows 10, avec LO 7.0.5.2

Je confirme ce qui est décrit pour le fichier incriminé :
- si la dernière ouverture d'un csv s'est faite avec le séparateur "virgule", LO ne parvient pas à se lancer correctement ni ouvrir le fichier.
- si la dernière ouverture d'un csv s'est faite avec le séparateur "point-virgule", c'est OK.

Ce fichier s'ouvre tout à fait facilement avec Notepad++.

Mais je ne suis pas sûr que le poids du fichier soit en cause.
En testant la même procédure sur un fichier perso 5 fois plus lourd (25Mo), dans les mêmes conditions, je n'ai pas de problème.
Je pense plus à une mal façon liée au fichier.

@+
Luc

Bonjour,

Bonjour Jean Baptiste,

D'abord, merci de regarder mon souci ...
Effectivement j'avais oublié de donner la version de LO, information
indispensable, et je m'en excuse.
Je me suis rend compte très vite de cet oubli et ai modifié mon message.
Mais, malheureusement, cette modification n'a pas été visible de suite sur
le forum ...

ça ne sert à rien : nous sommes sur une liste de discussion et nabble n'est qu'une passerelle. Il vaut mieux dans ce cas faire une réponse à son propre message pour ajouter les informations manquantes.

Ma version précise est donc la suivante :
Version: 7.1.2.2 (x64) / LibreOffice Community
Build ID: 8a45595d069ef5570103caea1b71cc9d82b2aae4
CPU threads: 8; OS: Windows 10.0 Build 19042; UI render: Skia/Raster; VCL:
win
Locale: fr-FR (fr_FR); UI: fr-FR
Calc: threaded

J'ai tenté beaucoup de choses, j'ai en effet commencé par un double clic sur
le fichier csv, j'ai essayé également depuis LO calc, même comportement.

Depuis Calc tu as plusieurs façons de faire :
- Fichier > Ouvrir
- Feuille > Insérer une feuille à partir d'un fichier

Pour reproduire mon pb, c'est simple :
télécharger le tableau "données-hospitalières-covid19-2021-05-01-19h09.csv"
par exemple pour aujourd'hui qui figure dans le site
https://www.data.gouv.fr/fr/datasets/donnees-hospitalieres-relatives-a-lepidemie-de-covid-19/
<https://www.data.gouv.fr/fr/datasets/donnees-hospitalieres-relatives-a-lepidemie-de-covid-19/>
Si le précédent import s'est fait avec le séparateur de champ du fichier à
importer (le ";" en l’occurrence), ça marche, sinon, ça tourne en rond et la
boite de dialogue d'import ne s'ouvre pas !

En effet je reproduis quelle que soit la façon dont j'ouvre le fichier CSV avec Calc.

Je pense que le problème ne vient pas du séparateur mais des guillemets. Tout se passe comme si le dialogue d'import cherchait le début des données en considérant que tant qu'il trouve des guillemets en début de ligne, il s'agit de l'entête du fichier.
Si je supprime tous les guillemets sauf ceux de la première ligne, le dialogue de configuration de l'import s'ouvre sans problème, même si le séparateur n'est pas le même que lors de l'import précédent.

Il faut que je trouve le moyen de n'enlever les guillemets que pour la 1ère colonne et je testerai à nouveau.

Testé sur Ubuntu 18.04 x86-64 avec LO 7.1.4.0.0+ (branche 7.1 compilation maison)

Bonne journée
JBF

Merci à tous,

Pour répondre à Claire, je charge le csv sur tableur, car je souhaite faire
des graphiques (et que je ne sais pas faire depuis Base ). J'utilise par
ailleurs un fichier Base pour faire un onglet lié à une requête : c'est
génial, même si j'ai eu des déboires pour la mettre en place : si je glisse
la requête depuis "sources de données", Lo plante et je suis obligé de
passer par la case ouverture sans échec pour restaurer la dernière
configuration et pouvoir à nouveau ouvrir LO. (Par contre, si je glisse la
requête directement depuis Base sur mon onglet vide, ça fonctionne).

Pour Luc, en effet, , le fichier csv s'ouvre avec l'outil très rustique de
windows bloc-note, et ce très rapidement. Ce serait intéressant de voir
s'il y a une différence entre le début du fichier qui marche dans tous les
cas et mon exemple, pour comprendre d'où vient le pb (cf message de
Jean-Baptiste ...)

et merci Jean-Baptiste pour tes recherches . J'utilise aussi l'option
feuille - lien vers des données externes, très pratique, mais elle ne
fonctionne que pour les tableaux effectivement présents sur des pages html,
et non pour des téléchargements ...
Bon dimanche à tous
Christophe

Salut Christophe

il me semble que ce n'est pas Base que j'ai cité. Et je t'assure que pour manipuler les données de cette ampleur, LibreOffice tout bon qu'il soit n'est pas le plus adapté.

Je parlais donc de R (via rstudio). Une doc pratique en français est en cours de finalisation, mais il y a déjà de quoi t'aider

https://www.book.utilitr.org/importcsv.html
https://www.book.utilitr.org/acp.html

(Évidemment mieux vaut lire les autres fiches aussi pour savoir utiliser R)

Claire

Bonjour,

Il y a un rapport de bug récent sur le même sujet : https://bugs.documentfoundation.org/show_bug.cgi?id=141505

J'y ai ajouté mes remarques.

Bonne journée
JBF

Bonjour Claire,
Je ne connaissais pas cet outil ...
La doc m'a l'air bien fichue, mais elle nécessitera quelques jours pluvieux
pour la digérer !
Merci
Christophe

En espérant que cela fasse progresser le schmilblick
Bonne journée
Christophe