Pandas: ENH:リーダーによる複数のコメント文字のサポート

作成日 2014年11月04日  ·  3コメント  ·  ソース: pandas-dev/pandas

Pandasがファイルからデータを読み取るときに複数のコメント文字をサポートしていれば非常に嬉しいです。 によると:

import pandas as pd
df = pd.read_table("data.dat", comment=("#","@"), delim_whitespace=True)

これがマイナーまたはメジャーの実装作業を必要とするかどうかわかりませんか?

一番、
エリック

Enhancement IO CSV

最も参考になるコメント

関連している:

コメント文字が実際には2文字、たとえば「##」でもかまいません。 たとえば、VCFファイルでは、実際のテーブルが開始する前に、ファイルの先頭に「##」を付けてメタデータを指定します。

http://www.internationalgenome.org/wiki/Analysis/vcf4.0/

多くの場合、これらを無視したいだけですが、次のようになります。

df = pd.read_csv("data.vcf", comment="##")

動作しません。 VCFの場合、ヘッダー行は実際には単一の「#」で始まるため、 comment="#"を使用するだけでは機能しないことに注意してください。

全てのコメント3件

これは少し手間がかかります。 リーダーは基本的にバイトごとです(いくつかのbackref機能があります)。 したがって、パフォーマンスの高い方法で、コメント文字のバッファを再度チェックする必要があります(単一の文字に対してチェックするだけですが、NULLでない場合のみ)。 できた。

関連している:

コメント文字が実際には2文字、たとえば「##」でもかまいません。 たとえば、VCFファイルでは、実際のテーブルが開始する前に、ファイルの先頭に「##」を付けてメタデータを指定します。

http://www.internationalgenome.org/wiki/Analysis/vcf4.0/

多くの場合、これらを無視したいだけですが、次のようになります。

df = pd.read_csv("data.vcf", comment="##")

動作しません。 VCFの場合、ヘッダー行は実際には単一の「#」で始まるため、 comment="#"を使用するだけでは機能しないことに注意してください。

これは難しいでしょう。 今はこれを閉じます

このページは役に立ちましたか?
0 / 5 - 0 評価