Pandas: ENH : prise en charge de plusieurs caractères de commentaire avec des lecteurs

Créé le 4 nov. 2014 · 3Commentaires · Source: pandas-dev/pandas

Je serais très heureux si Pandas prenait en charge plusieurs caractères de commentaire lors de la lecture de données à partir de fichiers. Selon:

import pandas as pd
df = pd.read_table("data.dat", comment=("#","@"), delim_whitespace=True)

Je ne sais pas si cela nécessite un effort de mise en œuvre mineur ou majeur ?

Meilleur,
Érik

Enhancement IO CSV

Source

ebran

Commentaire le plus utile

En rapport:

Ce serait formidable si un caractère de commentaire pouvait également être composé de deux caractères, par exemple "##". Par exemple, dans les fichiers VCF, certaines métadonnées sont spécifiées au début du fichier avec "##" avant le début de la table :

http://www.internationalgenome.org/wiki/Analysis/vcf4.0/

Souvent, on veut juste les ignorer, mais :

df = pd.read_csv("data.vcf", comment="##")

ne fonctionne pas. Notez que pour VCF, cela ne fonctionnera pas d'utiliser simplement comment="#" puisque la ligne d'en-tête commence en fait par un seul "#".

dansondergaard le 22 nov. 2016

👍11

Tous les 3 commentaires

ce serait un petit effort. le lecteur est essentiellement octet par octet (avec une certaine capacité de backref). Il devrait donc vérifier à nouveau un tampon des caractères de commentaire (il vérifie simplement le caractère unique maintenant, mais seulement s'il n'est pas NULL), de manière performante. Pourrait être fait.

jreback le 4 nov. 2014

En rapport:

http://www.internationalgenome.org/wiki/Analysis/vcf4.0/

Souvent, on veut juste les ignorer, mais :

df = pd.read_csv("data.vcf", comment="##")

ne fonctionne pas. Notez que pour VCF, cela ne fonctionnera pas d'utiliser simplement comment="#" puisque la ligne d'en-tête commence en fait par un seul "#".

dansondergaard le 22 nov. 2016

👍11

Ce serait difficile. Je ferme ça pour l'instant