Pandas: ENH: Dukungan untuk beberapa karakter komentar dengan pembaca

Dibuat pada 4 Nov 2014  ·  3Komentar  ·  Sumber: pandas-dev/pandas

Saya akan sangat senang jika Panda mendukung banyak karakter komentar saat membaca data dari file. Berdasarkan:

import pandas as pd
df = pd.read_table("data.dat", comment=("#","@"), delim_whitespace=True)

Saya tidak tahu apakah ini memerlukan upaya implementasi kecil atau besar?

Terbaik,
Erik

Enhancement IO CSV

Komentar yang paling membantu

Terkait:

Akan lebih bagus jika karakter komentar sebenarnya bisa menjadi dua karakter, misalnya "##". Misalnya, dalam file VCF, beberapa data meta ditentukan di awal file dengan "##" sebelum tabel sebenarnya dimulai:

http://www.internationalgenome.org/wiki/Analysis/vcf4.0/

Seringkali seseorang hanya ingin mengabaikan ini, tetapi:

df = pd.read_csv("data.vcf", comment="##")

tidak bekerja. Perhatikan bahwa untuk VCF tidak akan berfungsi hanya dengan menggunakan comment="#" karena baris header sebenarnya dimulai dengan satu "#".

Semua 3 komentar

ini akan menjadi sedikit usaha. pembaca pada dasarnya byte demi byte (dengan beberapa kemampuan backref). Jadi itu harus memeriksa buffer dari karakter komentar (itu hanya memeriksa satu karakter sekarang, tetapi hanya jika itu bukan NULL), dengan cara yang performan. Bisa dilakukan.

Terkait:

Akan lebih bagus jika karakter komentar sebenarnya bisa menjadi dua karakter, misalnya "##". Misalnya, dalam file VCF, beberapa data meta ditentukan di awal file dengan "##" sebelum tabel sebenarnya dimulai:

http://www.internationalgenome.org/wiki/Analysis/vcf4.0/

Seringkali seseorang hanya ingin mengabaikan ini, tetapi:

df = pd.read_csv("data.vcf", comment="##")

tidak bekerja. Perhatikan bahwa untuk VCF tidak akan berfungsi hanya dengan menggunakan comment="#" karena baris header sebenarnya dimulai dengan satu "#".

Ini akan sulit. Saya menutup ini untuk saat ini

Apakah halaman ini membantu?
0 / 5 - 0 peringkat