Ich würde mich sehr freuen, wenn Pandas beim Lesen von Daten aus Dateien mehrere Kommentarzeichen unterstützen würde. Gemäß:
import pandas as pd
df = pd.read_table("data.dat", comment=("#","@"), delim_whitespace=True)
Ich weiß nicht, ob dies einen geringen oder größeren Implementierungsaufwand erfordert?
Am besten,
Erik
das wäre ein bisschen Aufwand. Der Leser ist im Grunde Byte für Byte (mit einigen Backref-Fähigkeiten). Es müsste also auf performante Weise gegen einen Puffer der Kommentarzeichen prüfen (es prüft jetzt nur gegen das einzelne Zeichen, aber nur, wenn es nicht NULL ist). Könnte gemacht werden.
Verwandt:
Wäre toll, wenn ein Kommentarzeichen eigentlich auch zwei Zeichen sein könnte, zB "##". Beispielsweise werden in VCF-Dateien einige Metadaten am Anfang der Datei mit „##“ angegeben, bevor die eigentliche Tabelle beginnt:
http://www.internationalgenome.org/wiki/Analysis/vcf4.0/
Oft möchte man diese einfach ignorieren, aber:
df = pd.read_csv("data.vcf", comment="##")
funktioniert nicht. Beachten Sie, dass es für VCF nicht funktioniert, einfach comment="#"
zu verwenden, da die Kopfzeile tatsächlich mit einem einzelnen "#" beginnt.
Das wäre schwierig. Ich schließe das jetzt
Hilfreichster Kommentar
Verwandt:
Wäre toll, wenn ein Kommentarzeichen eigentlich auch zwei Zeichen sein könnte, zB "##". Beispielsweise werden in VCF-Dateien einige Metadaten am Anfang der Datei mit „##“ angegeben, bevor die eigentliche Tabelle beginnt:
http://www.internationalgenome.org/wiki/Analysis/vcf4.0/
Oft möchte man diese einfach ignorieren, aber:
funktioniert nicht. Beachten Sie, dass es für VCF nicht funktioniert, einfach
comment="#"
zu verwenden, da die Kopfzeile tatsächlich mit einem einzelnen "#" beginnt.