Pandas: ENH:支持与读者的多个评论字符

创建于 2014-11-04  ·  3评论  ·  资料来源: pandas-dev/pandas

如果 Pandas 在从文件中读取数据时支持多个注释字符,我会非常高兴。 根据:

import pandas as pd
df = pd.read_table("data.dat", comment=("#","@"), delim_whitespace=True)

我不知道这是否需要较小或主要的实施工作?

最好的,
埃里克

Enhancement IO CSV

最有用的评论

有关的:

如果评论字符实际上也可以是两个字符,例如“##”,那就太好了。 例如,在 VCF 文件中,在实际表开始之前,在文件开头用“##”指定了一些元数据:

http://www.internationalgenome.org/wiki/Analysis/vcf4.0/

通常人们只想忽略这些,但是:

df = pd.read_csv("data.vcf", comment="##")

不起作用。 请注意,对于 VCF,仅使用comment="#"是行不通的,因为标题行实​​际上以单个“#”开头。

所有3条评论

这将是一个有点努力。 阅读器基本上是逐字节的(具有一些反向引用功能)。 因此,它必须以高性能的方式再次检查注释字符的缓冲区(它现在只检查单个字符,但前提是它不是 NULL)。 可以做到。

有关的:

如果评论字符实际上也可以是两个字符,例如“##”,那就太好了。 例如,在 VCF 文件中,在实际表开始之前,在文件开头用“##”指定了一些元数据:

http://www.internationalgenome.org/wiki/Analysis/vcf4.0/

通常人们只想忽略这些,但是:

df = pd.read_csv("data.vcf", comment="##")

不起作用。 请注意,对于 VCF,仅使用comment="#"是行不通的,因为标题行实​​际上以单个“#”开头。

这将是困难的。 我暂时关闭这个

此页面是否有帮助?
0 / 5 - 0 等级