Eu ficaria muito satisfeito se o Pandas suportasse vários caracteres de comentário ao ler dados de arquivos. De acordo com:
import pandas as pd
df = pd.read_table("data.dat", comment=("#","@"), delim_whitespace=True)
Não sei se isso requer um esforço de implementação menor ou maior?
melhor,
Erik
isso seria um pouco de esforço. o leitor é basicamente byte por byte (com alguma capacidade de backref). Portanto, ele teria que verificar um buffer dos caracteres de comentário (ele apenas verifica o caractere único agora, mas apenas se não for NULL), de maneira eficiente. Poderia ser feito.
Relacionado:
Seria ótimo se um caractere de comentário também pudesse ser dois caracteres, por exemplo, "##". Por exemplo, em arquivos VCF, alguns metadados são especificados no início do arquivo com "##" antes do início da tabela real:
http://www.internationalgenome.org/wiki/Analysis/vcf4.0/
Muitas vezes, queremos apenas ignorá-los, mas:
df = pd.read_csv("data.vcf", comment="##")
não funciona. Observe que para VCF não funcionará apenas usar comment="#"
já que a linha de cabeçalho na verdade começa com um único "#".
Isso seria difícil. Estou fechando isso por enquanto
Comentários muito úteis
Relacionado:
Seria ótimo se um caractere de comentário também pudesse ser dois caracteres, por exemplo, "##". Por exemplo, em arquivos VCF, alguns metadados são especificados no início do arquivo com "##" antes do início da tabela real:
http://www.internationalgenome.org/wiki/Analysis/vcf4.0/
Muitas vezes, queremos apenas ignorá-los, mas:
não funciona. Observe que para VCF não funcionará apenas usar
comment="#"
já que a linha de cabeçalho na verdade começa com um único "#".