Je serais très heureux si Pandas prenait en charge plusieurs caractères de commentaire lors de la lecture de données à partir de fichiers. Selon:
import pandas as pd
df = pd.read_table("data.dat", comment=("#","@"), delim_whitespace=True)
Je ne sais pas si cela nécessite un effort de mise en œuvre mineur ou majeur ?
Meilleur,
Érik
ce serait un petit effort. le lecteur est essentiellement octet par octet (avec une certaine capacité de backref). Il devrait donc vérifier à nouveau un tampon des caractères de commentaire (il vérifie simplement le caractère unique maintenant, mais seulement s'il n'est pas NULL), de manière performante. Pourrait être fait.
En rapport:
Ce serait formidable si un caractère de commentaire pouvait également être composé de deux caractères, par exemple "##". Par exemple, dans les fichiers VCF, certaines métadonnées sont spécifiées au début du fichier avec "##" avant le début de la table :
http://www.internationalgenome.org/wiki/Analysis/vcf4.0/
Souvent, on veut juste les ignorer, mais :
df = pd.read_csv("data.vcf", comment="##")
ne fonctionne pas. Notez que pour VCF, cela ne fonctionnera pas d'utiliser simplement comment="#"
puisque la ligne d'en-tête commence en fait par un seul "#".
Ce serait difficile. Je ferme ça pour l'instant
Commentaire le plus utile
En rapport:
Ce serait formidable si un caractère de commentaire pouvait également être composé de deux caractères, par exemple "##". Par exemple, dans les fichiers VCF, certaines métadonnées sont spécifiées au début du fichier avec "##" avant le début de la table :
http://www.internationalgenome.org/wiki/Analysis/vcf4.0/
Souvent, on veut juste les ignorer, mais :
ne fonctionne pas. Notez que pour VCF, cela ne fonctionnera pas d'utiliser simplement
comment="#"
puisque la ligne d'en-tête commence en fait par un seul "#".