Calc : fichier csv énorme...

Bonjour,

Ma question confine plus à la curiosité qu'à un véritable besoin... quoi
que...

Bref, vous trouverez un énorme fichier csv ici :

https://www.data.gouv.fr/fr/datasets/balances-comptables-des-collectivites-et-des-etablissements-publics-locaux-avec-la-presentation-croisee-nature-fonction/

Il s'agit plus précisément du fichier « Balances comptables 2017 avec la
présentation croisée nature-fonction » qui se charge ici :

https://static.data.gouv.fr/resources/balances-comptables-des-collectivites-et-des-etablissements-publics-locaux-avec-la-presentation-croisee-nature-fonction/20181025-145500/balancespl-fonction-2017.zip

On peut l'ouvrir avec Calc, mais on s'arrête au département 31, car on
atteint les limites de LIBO en nombre de lignes. C'est problématique si on
veut travailler sur le département 32, voire au-delà.

Avec quoi pourrait-on ouvrir ce fichier en totalité afin d'en extraire les
seules données utilisables ? Au-delà, n'est-ce pas une forme de déni du big
data de l'État que de mettre à disposition des fichiers à peu près
inutilisables par le vulgum pecus ?

Je vous souhaite à tous un agréable weekend,

Dominique

----- Mail original -----

De: "Dominique_sextant" <dominique.sextant@orange.fr>
À: users@fr.libreoffice.org
Envoyé: Samedi 3 Novembre 2018 06:51:06
Objet: [fr-users] Calc : fichier csv énorme...

Bonjour,

Ma question confine plus à la curiosité qu'à un véritable besoin...
quoi
que...

Bref, vous trouverez un énorme fichier csv ici :

https://www.data.gouv.fr/fr/datasets/balances-comptables-des-collectivites-et-des-etablissements-publics-locaux-avec-la-presentation-croisee-nature-fonction/

Il s'agit plus précisément du fichier « Balances comptables 2017 avec
la
présentation croisée nature-fonction » qui se charge ici :

https://static.data.gouv.fr/resources/balances-comptables-des-collectivites-et-des-etablissements-publics-locaux-avec-la-presentation-croisee-nature-fonction/20181025-145500/balancespl-fonction-2017.zip

On peut l'ouvrir avec Calc, mais on s'arrête au département 31, car
on
atteint les limites de LIBO en nombre de lignes. C'est problématique
si on
veut travailler sur le département 32, voire au-delà.

Avec quoi pourrait-on ouvrir ce fichier en totalité afin d'en
extraire les
seules données utilisables ? Au-delà, n'est-ce pas une forme de déni
du big
data de l'État que de mettre à disposition des fichiers à peu près
inutilisables par le vulgum pecus ?

Je vous souhaite à tous un agréable weekend,

Dominique

bonjour,

un fichier csv s'ouvre avec vim ou emacs ...

après pour en extraire des données il faut employer les regex
ou la recherche par mot clé

merci
slt
bernard

Bonjour Bernard,

Zut, j'ai oublié Vim bien sûr ! Merci de me l'avoir rappelé :slight_smile:

Le big data s'adresse toutefois à tous. Mais tous les utilisateurs savent-ils travailler avec Vim (ou emacs) et les REGEX ? Non, bien sûr.

Bonjour,

Ma question confine plus à la curiosité qu'à un véritable besoin... quoi
que...

Bref, vous trouverez un énorme fichier csv ici :

https://www.data.gouv.fr/fr/datasets/balances-comptables-des-collectivites-et-des-etablissements-publics-locaux-avec-la-presentation-croisee-nature-fonction/

Il s'agit plus précisément du fichier « Balances comptables 2017 avec la
présentation croisée nature-fonction » qui se charge ici :

https://static.data.gouv.fr/resources/balances-comptables-des-collectivites-et-des-etablissements-publics-locaux-avec-la-presentation-croisee-nature-fonction/20181025-145500/balancespl-fonction-2017.zip

On peut l'ouvrir avec Calc, mais on s'arrête au département 31, car on
atteint les limites de LIBO en nombre de lignes. C'est problématique si on
veut travailler sur le département 32, voire au-delà.

le fichier comporte env. 4.491.000 lignes, encodées en ISO-8859-15. C'est juste un poil au-dessus de la limite pour Calc.

Avec quoi pourrait-on ouvrir ce fichier en totalité afin d'en extraire les
seules données utilisables ?

As-tu essayé avec Base ? Le fichier s'ouvre mais je ne suis pas allé plus loin.

Au-delà, n'est-ce pas une forme de déni du big
data de l'État que de mettre à disposition des fichiers à peu près
inutilisables par le vulgum pecus ?

Ce qui me gêne le plus c'est l'encodage du fichier qui n'est pas UTF8. Pour ce qui est de la taille, voir avec Base pour savoir si c'est à la porté du quidam de base. Maintenant, les données ouvertes ne sont pas forcément à destination du seul quidam de base.

Bon week-end,

Bonjour,

Si la masse de données devient conséquente et que les données sont structurées, je les chargerais dans une base de données. Il est facile ensuite de les interroger à coups de SQL.

Ça nécessite quelques lignes de macro, mais bon... On peut aussi utiliser un "vrai" langage pour les exploiter, hors LibreOffice.

Tiens, dans le même ordre de réflexion du service rendu par les autorités à leurs chers administrés, j'ai noté que nous recevons en clair, par mail, confirmation du règlement de taxes, avec mention de nos coordonnées complètes et la racine de nos comptes bancaires. Un malfaisant peut donc intercepter le mail, savoir qui je suis, où j'habite, combien j'ai payé et depuis quelle banque. Le RGPD, c'est quoi, au juste ?

Thierry

Bonjour,

Oui plutôt base de données, a priori pour de telles quantités de données.
Le vulgum pecus étant plutôt sous Windows,  il a à sa disposition les filtres ODBC et, bien sûr, Base..
Ceci étant, le fichier met à genoux Excel aussi bien que Calc même en utilisant le fichier comme source de tableau croisé ou en passant par l'ODBC.
Sous Base requêtes, SQL and co marchent très bien et rapidement.

Maintenant est-ce que la plèbe est capable d'assimiler des connées comptables... ?

Au passage, on peut remarquer, quand même que le fichier de description de structure est au format Calc.. ça fait toujours plaisir...

Christian F

Bonjour,

Effectivement le commun des mortels ne sait utiliser autant de données. Mais, fort heureusement LibO nous fourni les outils avec Base et Calc.
     - ouvrir Base : une fenêtre s'ouvre "assistant base de données"
         - étape 1 "sélectionner une base de données" :
             cliquer sur le choix "connecter une base de données existante"
             puis dans la liste déroulante sélectionner "Texte"
             enfin, cliquer sur suivant.
         - étape 2 "paramétrer une connexion aux fichiers texte" :
             chemin vers les fichiers textes, cliquer sur parcourir pour sélectionner le répertoire contenant le fichier .csv (dans l'exemple BalanceSPL_Fonction_2017.csv après décompression du .zip)
             en dessous sélectionner "Fichiers *.csv"
             encore en dessous dans les listes déroulantes sélectionner les séparateurs voulus. (Ici on a juste à changer le séparateur de champ "," prédéfini par ";")
             et on clique sur suivant.
         - étape 3 "enregistrer et continuer"
             dans le cas présent j'ai sélectionné "Non, je ne souhaite pas que la base de données soit référencée". (Pas utile pour ce test).
             puis cliquer sur terminer pour enregistrer la base de données "xxxxx.odb" puis pour l'ouvrir.

On peut alors voir à gauche un bandeau "base de données" :
         cliquer sur "Requêtes"
         sur la droite dans le bandeau "Tâches" cliquer sur "Créer une requête en mode SQL"
         dans la nouvelle fenêtre qui s'ouvre saisir :
             Select * from BalanceSPL_Fonction_2017 where ndept=32. Cela sélectionne toutes les données de la table BalanceSPL_Fonction_2017 pour le département (nom du champ "ndept") 32, par exemple.
         quelques seconde plus tard on obtient l'affichage d'un tableau avec les données voulues.
Voilà, le travail fastidieux est terminé, ensuite c'est très simple.

Pour copier dans Calc :
     * Réduire la fenêtre contenant le résultat de la requête SQL ;
     * Ouvrir un tableau Calc vierge et le réduire à l'écran aussi ;
     * Dans la fenêtre "Requête", cliquer, *_et surtout maintenir cliqué jusqu'à la fin de l'étape suivante_*, dans l'angle supérieur gauche du tableau (à l'intersection des entêtes de lignes et de colonnes, comme dans Calc) ;
     * Tirer et déposer dans la cellule A1 (par exemple) du tableau Calc ;
     * Et, au bout de quelques secondes on obtient ce que l'on souhaite (dans l'exemple toutes les données du département 32).

Il n'y a plus qu'à enregistrer les données importées dans Calc. On peut aussi enregistrer la requête et la base de données .odb pour un usage futur.
Il suffira alors, dans la requête, de modifier le n° du département, ou de créer une nouvelle requête pour voir par exemple qui a dépensé le plus (mais ça c'est une autre histoire ....)

Voilà, j'espère ne pas avoir été trop long. (LibO : 1 - Big Data : 0)
Chez moi cela fonctionne parfaitement avec la configuration ci-dessous. Je n'ai pas testé avec Linux et/ou une autre distro de LibO.
Bon amusement avec les bases de données. :wink:
Bien cordialement.

Patrick.

\o/

Bien cordialement,

----- Mail original -----

De: "Jean-Francois Nifenecker" <jean-francois.nifenecker@laposte.net>
À: users@fr.libreoffice.org
Envoyé: Samedi 3 Novembre 2018 08:04:22
Objet: Re: [fr-users] Calc : fichier csv énorme...

le fichier comporte env. 4.491.000 lignes, encodées en ISO-8859-15.
C'est juste un poil au-dessus de la limite pour Calc.

As-tu essayé avec Base ? Le fichier s'ouvre mais je ne suis pas allé
plus loin.

Ce qui me gêne le plus c'est l'encodage du fichier qui n'est pas
UTF8.
Pour ce qui est de la taille, voir avec Base pour savoir si c'est à
la
porté du quidam de base. Maintenant, les données ouvertes ne sont pas
forcément à destination du seul quidam de base.

Bon week-end,

bonjour,

pourquoi ne pas passer par recode ou iconv ?

merci
slt
bernard

Si taper quelques lignes de code ne te fait pas peur, tu peux peut-être te lancer dans Python/Pandas. Tu peux installer Anaconda (https://www.anaconda.com/). Ensuite, grâce à Pandas (https://pandas.pydata.org/), tu peux facilement charger ton fichier csv dans une table, faire quelques filtrages et ensuite sauver le résultat dans un nouveau fichier csv. Grâce à Anaconda et jupyter (https://jupyter.org/), tu peux également tout faire dans une interface web facile à utiliser.

Ah oui, Pandas peut être une bonne idée. Je ne connaissais pas jupyter. Je vais m'y intéresser. Merci pour les conseils.

IllicoEditor n'arrive pas à ouvrir ce gros fichier csv.

D'autant qu'il s'agit de données qui émanent des silos Hélios de la DGFIP :slight_smile:

Bonjour,

Je ne vois pas trop de quel mail tu parles... Je ne me souviens pas d'en avoir reçu de tels de la DGFIP.

Paiement de la taxe d'habitation, eh oui. C'est rassurant, ça donne
confiance.

Thierry