Pandas: ENH: Suporte para vários caracteres de comentários com leitores

Criado em 4 nov. 2014  ·  3Comentários  ·  Fonte: pandas-dev/pandas

Eu ficaria muito satisfeito se o Pandas suportasse vários caracteres de comentário ao ler dados de arquivos. De acordo com:

import pandas as pd
df = pd.read_table("data.dat", comment=("#","@"), delim_whitespace=True)

Não sei se isso requer um esforço de implementação menor ou maior?

melhor,
Erik

Enhancement IO CSV

Comentários muito úteis

Relacionado:

Seria ótimo se um caractere de comentário também pudesse ser dois caracteres, por exemplo, "##". Por exemplo, em arquivos VCF, alguns metadados são especificados no início do arquivo com "##" antes do início da tabela real:

http://www.internationalgenome.org/wiki/Analysis/vcf4.0/

Muitas vezes, queremos apenas ignorá-los, mas:

df = pd.read_csv("data.vcf", comment="##")

não funciona. Observe que para VCF não funcionará apenas usar comment="#" já que a linha de cabeçalho na verdade começa com um único "#".

Todos 3 comentários

isso seria um pouco de esforço. o leitor é basicamente byte por byte (com alguma capacidade de backref). Portanto, ele teria que verificar um buffer dos caracteres de comentário (ele apenas verifica o caractere único agora, mas apenas se não for NULL), de maneira eficiente. Poderia ser feito.

Relacionado:

Seria ótimo se um caractere de comentário também pudesse ser dois caracteres, por exemplo, "##". Por exemplo, em arquivos VCF, alguns metadados são especificados no início do arquivo com "##" antes do início da tabela real:

http://www.internationalgenome.org/wiki/Analysis/vcf4.0/

Muitas vezes, queremos apenas ignorá-los, mas:

df = pd.read_csv("data.vcf", comment="##")

não funciona. Observe que para VCF não funcionará apenas usar comment="#" já que a linha de cabeçalho na verdade começa com um único "#".

Isso seria difícil. Estou fechando isso por enquanto

Esta página foi útil?
0 / 5 - 0 avaliações