Pandas: ENH: Suporte para vários caracteres de comentários com leitores

Criado em 4 nov. 2014 · 3Comentários · Fonte: pandas-dev/pandas

Eu ficaria muito satisfeito se o Pandas suportasse vários caracteres de comentário ao ler dados de arquivos. De acordo com:

import pandas as pd
df = pd.read_table("data.dat", comment=("#","@"), delim_whitespace=True)

Não sei se isso requer um esforço de implementação menor ou maior?

melhor,
Erik

Enhancement IO CSV

Fonte

ebran

Comentários muito úteis

Relacionado:

Seria ótimo se um caractere de comentário também pudesse ser dois caracteres, por exemplo, "##". Por exemplo, em arquivos VCF, alguns metadados são especificados no início do arquivo com "##" antes do início da tabela real:

http://www.internationalgenome.org/wiki/Analysis/vcf4.0/

Muitas vezes, queremos apenas ignorá-los, mas:

df = pd.read_csv("data.vcf", comment="##")

não funciona. Observe que para VCF não funcionará apenas usar comment="#" já que a linha de cabeçalho na verdade começa com um único "#".

dansondergaard em 22 nov. 2016

👍11

Todos 3 comentários

isso seria um pouco de esforço. o leitor é basicamente byte por byte (com alguma capacidade de backref). Portanto, ele teria que verificar um buffer dos caracteres de comentário (ele apenas verifica o caractere único agora, mas apenas se não for NULL), de maneira eficiente. Poderia ser feito.

jreback em 4 nov. 2014

Relacionado:

http://www.internationalgenome.org/wiki/Analysis/vcf4.0/

Muitas vezes, queremos apenas ignorá-los, mas:

df = pd.read_csv("data.vcf", comment="##")

não funciona. Observe que para VCF não funcionará apenas usar comment="#" já que a linha de cabeçalho na verdade começa com um único "#".

dansondergaard em 22 nov. 2016

👍11

Isso seria difícil. Estou fechando isso por enquanto

wesm em 6 jul. 2018

Esta página foi útil?

0 / 5 - 0 avaliações

Questões relacionadas

Armazenar um dict em um DataFrame falha

andreas-thomik · 3Comentários

read_csv (filename_with_asian_locale) falhou em python 3.6 para windows

mfmain · 3Comentários

Criação de dataframe: especificando dtypes com um dicionário

amelio-vazquez-reina · 3Comentários

Os gráficos hexbin não exibem rótulos x e rótulos xtick

BDannowitz · 3Comentários

Pandas get_dummies () e n-1 Opção de codificação categórica para evitar colinearidade?

jaradc · 3Comentários