Pandas: ENH: Unterstützung für mehrere Kommentarzeichen bei Lesern

Erstellt am 4. Nov. 2014 · 3Kommentare · Quelle: pandas-dev/pandas

Ich würde mich sehr freuen, wenn Pandas beim Lesen von Daten aus Dateien mehrere Kommentarzeichen unterstützen würde. Gemäß:

import pandas as pd
df = pd.read_table("data.dat", comment=("#","@"), delim_whitespace=True)

Ich weiß nicht, ob dies einen geringen oder größeren Implementierungsaufwand erfordert?

Am besten,
Erik

Enhancement IO CSV

Quelle

ebran

Hilfreichster Kommentar

Verwandt:

Wäre toll, wenn ein Kommentarzeichen eigentlich auch zwei Zeichen sein könnte, zB "##". Beispielsweise werden in VCF-Dateien einige Metadaten am Anfang der Datei mit „##“ angegeben, bevor die eigentliche Tabelle beginnt:

http://www.internationalgenome.org/wiki/Analysis/vcf4.0/

Oft möchte man diese einfach ignorieren, aber:

df = pd.read_csv("data.vcf", comment="##")

funktioniert nicht. Beachten Sie, dass es für VCF nicht funktioniert, einfach comment="#" zu verwenden, da die Kopfzeile tatsächlich mit einem einzelnen "#" beginnt.

dansondergaard am 22. Nov. 2016

👍11

Alle 3 Kommentare

das wäre ein bisschen Aufwand. Der Leser ist im Grunde Byte für Byte (mit einigen Backref-Fähigkeiten). Es müsste also auf performante Weise gegen einen Puffer der Kommentarzeichen prüfen (es prüft jetzt nur gegen das einzelne Zeichen, aber nur, wenn es nicht NULL ist). Könnte gemacht werden.

jreback am 4. Nov. 2014

Verwandt:

http://www.internationalgenome.org/wiki/Analysis/vcf4.0/

Oft möchte man diese einfach ignorieren, aber:

df = pd.read_csv("data.vcf", comment="##")

funktioniert nicht. Beachten Sie, dass es für VCF nicht funktioniert, einfach comment="#" zu verwenden, da die Kopfzeile tatsächlich mit einem einzelnen "#" beginnt.

dansondergaard am 22. Nov. 2016

👍11

Das wäre schwierig. Ich schließe das jetzt