Pandasがファイルからデータを読み取るときに複数のコメント文字をサポートしていれば非常に嬉しいです。 によると:
import pandas as pd
df = pd.read_table("data.dat", comment=("#","@"), delim_whitespace=True)
これがマイナーまたはメジャーの実装作業を必要とするかどうかわかりませんか?
一番、
エリック
これは少し手間がかかります。 リーダーは基本的にバイトごとです(いくつかのbackref機能があります)。 したがって、パフォーマンスの高い方法で、コメント文字のバッファを再度チェックする必要があります(単一の文字に対してチェックするだけですが、NULLでない場合のみ)。 できた。
関連している:
コメント文字が実際には2文字、たとえば「##」でもかまいません。 たとえば、VCFファイルでは、実際のテーブルが開始する前に、ファイルの先頭に「##」を付けてメタデータを指定します。
http://www.internationalgenome.org/wiki/Analysis/vcf4.0/
多くの場合、これらを無視したいだけですが、次のようになります。
df = pd.read_csv("data.vcf", comment="##")
動作しません。 VCFの場合、ヘッダー行は実際には単一の「#」で始まるため、 comment="#"
を使用するだけでは機能しないことに注意してください。
これは難しいでしょう。 今はこれを閉じます
最も参考になるコメント
関連している:
コメント文字が実際には2文字、たとえば「##」でもかまいません。 たとえば、VCFファイルでは、実際のテーブルが開始する前に、ファイルの先頭に「##」を付けてメタデータを指定します。
http://www.internationalgenome.org/wiki/Analysis/vcf4.0/
多くの場合、これらを無視したいだけですが、次のようになります。
動作しません。 VCFの場合、ヘッダー行は実際には単一の「#」で始まるため、
comment="#"
を使用するだけでは機能しないことに注意してください。