如果 Pandas 在从文件中读取数据时支持多个注释字符,我会非常高兴。 根据:
import pandas as pd
df = pd.read_table("data.dat", comment=("#","@"), delim_whitespace=True)
我不知道这是否需要较小或主要的实施工作?
最好的,
埃里克
这将是一个有点努力。 阅读器基本上是逐字节的(具有一些反向引用功能)。 因此,它必须以高性能的方式再次检查注释字符的缓冲区(它现在只检查单个字符,但前提是它不是 NULL)。 可以做到。
有关的:
如果评论字符实际上也可以是两个字符,例如“##”,那就太好了。 例如,在 VCF 文件中,在实际表开始之前,在文件开头用“##”指定了一些元数据:
http://www.internationalgenome.org/wiki/Analysis/vcf4.0/
通常人们只想忽略这些,但是:
df = pd.read_csv("data.vcf", comment="##")
不起作用。 请注意,对于 VCF,仅使用comment="#"
是行不通的,因为标题行实际上以单个“#”开头。
这将是困难的。 我暂时关闭这个
最有用的评论
有关的:
如果评论字符实际上也可以是两个字符,例如“##”,那就太好了。 例如,在 VCF 文件中,在实际表开始之前,在文件开头用“##”指定了一些元数据:
http://www.internationalgenome.org/wiki/Analysis/vcf4.0/
通常人们只想忽略这些,但是:
不起作用。 请注意,对于 VCF,仅使用
comment="#"
是行不通的,因为标题行实际上以单个“#”开头。