Pandas: ENH: Unterstützung für mehrere Kommentarzeichen bei Lesern

Erstellt am 4. Nov. 2014  ·  3Kommentare  ·  Quelle: pandas-dev/pandas

Ich würde mich sehr freuen, wenn Pandas beim Lesen von Daten aus Dateien mehrere Kommentarzeichen unterstützen würde. Gemäß:

import pandas as pd
df = pd.read_table("data.dat", comment=("#","@"), delim_whitespace=True)

Ich weiß nicht, ob dies einen geringen oder größeren Implementierungsaufwand erfordert?

Am besten,
Erik

Enhancement IO CSV

Hilfreichster Kommentar

Verwandt:

Wäre toll, wenn ein Kommentarzeichen eigentlich auch zwei Zeichen sein könnte, zB "##". Beispielsweise werden in VCF-Dateien einige Metadaten am Anfang der Datei mit „##“ angegeben, bevor die eigentliche Tabelle beginnt:

http://www.internationalgenome.org/wiki/Analysis/vcf4.0/

Oft möchte man diese einfach ignorieren, aber:

df = pd.read_csv("data.vcf", comment="##")

funktioniert nicht. Beachten Sie, dass es für VCF nicht funktioniert, einfach comment="#" zu verwenden, da die Kopfzeile tatsächlich mit einem einzelnen "#" beginnt.

Alle 3 Kommentare

das wäre ein bisschen Aufwand. Der Leser ist im Grunde Byte für Byte (mit einigen Backref-Fähigkeiten). Es müsste also auf performante Weise gegen einen Puffer der Kommentarzeichen prüfen (es prüft jetzt nur gegen das einzelne Zeichen, aber nur, wenn es nicht NULL ist). Könnte gemacht werden.

Verwandt:

Wäre toll, wenn ein Kommentarzeichen eigentlich auch zwei Zeichen sein könnte, zB "##". Beispielsweise werden in VCF-Dateien einige Metadaten am Anfang der Datei mit „##“ angegeben, bevor die eigentliche Tabelle beginnt:

http://www.internationalgenome.org/wiki/Analysis/vcf4.0/

Oft möchte man diese einfach ignorieren, aber:

df = pd.read_csv("data.vcf", comment="##")

funktioniert nicht. Beachten Sie, dass es für VCF nicht funktioniert, einfach comment="#" zu verwenden, da die Kopfzeile tatsächlich mit einem einzelnen "#" beginnt.

Das wäre schwierig. Ich schließe das jetzt

War diese Seite hilfreich?
0 / 5 - 0 Bewertungen