Doccano: Não é possível fazer upload de um arquivo com quebra de linha dentro do texto

Criado em 12 ago. 2019  ·  3Comentários  ·  Fonte: doccano/doccano

Informação do sistema

  • Plataforma e distribuição do sistema operacional (por exemplo, Linux Ubuntu 16.04) :
    Windows 10
  • Versão Python :
    3.6.4

Descreva o problema

Estou tentando fazer upload de um arquivo onde os textos não são uma única linha, mas podem ter quebras de linha dentro deles. Mesmo ao usar o formato de arquivo JSON para separar cada texto como propriedade em vez de uma linha, ao fazer upload de um arquivo, parece que o Doccano ainda se separa por quebra de linha.

Código-fonte / logs

Por exemplo, este é um arquivo JSON que estou tentando enviar com um único texto dentro dele:

[{"text": "Processo 0000637-15.2012.8.12.0003 (003.12.000637-8) - Procedimento Comum - Inadimplemento Reqte: Fabiano Neves Gon\u00e7alves ADV: PAULO DE TARSO AZEVEDO PEGOLO (OAB 10789/MS) ADV: HENRIQUE LIMA (OAB 9979/MS) ADV: GUILHERME FERREIRA DE BRITO (OAB 9982/MS) ADV: RODRIGO LOUREIRO (OAB 13583/MS) ADV: FRANCIELLI SANCHEZ SALAZAR (OAB 15140/MS) ADV: JAC\u00d3 CARLOS SILVA COELHO (OAB 15155A/MS) ADV: IVONE CONCEI\u00c7\u00c3O SILVA (OAB 13609/MS) 1.\nCom o tr\u00e2nsito em julgado da senten\u00e7a de fl. 393 e satisfa\u00e7\u00e3o integral do cr\u00e9dito, o of\u00edcio jurisdicional acha-se cumprido e acabado, raz\u00e3o por que indefiro o pedido de digitaliza\u00e7\u00e3o do feito (fl. 416).\nAdemais, tramitam nessa unidade judici\u00e1ria milhares de processos e se for admitida a digitaliza\u00e7\u00e3o de todos os feitos finalizados, haver\u00e1 atraso injustificado nas atividades do cart\u00f3rio, pois \u00e9 necess\u00e1rio grande lapso temporal do servidor para este fim.\n2.\nDever\u00e1 o cart\u00f3rio promover a retifica\u00e7\u00e3o do advogado da Mafre Vida S/A no sistema SAJ, para futuras publica\u00e7\u00f5es e intima\u00e7\u00f5es, conforme declinado \u00e0 fl. 416.\nIntimem-se.\nAp\u00f3s, arquive-se."}]

A ideia era visualizar o texto com quebras de linha ao mostrá-lo durante o processo de anotação, mas o que conseguimos foi que o Doccano estava transformando cada frase em um texto por si só. Para comparação, este mesmo texto foi carregado como este:

image

Como mostra a imagem, o texto foi quebrado em cada quebra de linha e cada substring foi tratada como um documento sozinho.

question

Comentários muito úteis

Consegui resolver via arquivo .jsonl. Os dados que mostrei anteriormente foram salvos da seguinte forma:

{"text": "Processo 0000637-15.2012.8.12.0003 (003.12.000637-8) - Procedimento Comum - Inadimplemento Reqte: Fabiano Neves Gonçalves ADV: PAULO DE TARSO AZEVEDO PEGOLO (OAB 10789/MS) ADV: HENRIQUE LIMA (OAB 9979/MS) ADV: GUILHERME FERREIRA DE BRITO (OAB 9982/MS) ADV: RODRIGO LOUREIRO (OAB 13583/MS) ADV: FRANCIELLI SANCHEZ SALAZAR (OAB 15140/MS) ADV: JACÓ CARLOS SILVA COELHO (OAB 15155A/MS) ADV: IVONE CONCEIÇÃO SILVA (OAB 13609/MS) 1.\n\nCom o trânsito em julgado da sentença de fl. 393 e satisfação integral do crédito, o ofício jurisdicional acha-se cumprido e acabado, razão por que indefiro o pedido de digitalização do feito (fl. 416).\n\nAdemais, tramitam nessa unidade judiciária milhares de processos e se for admitida a digitalização de todos os feitos finalizados, haverá atraso injustificado nas atividades do cartório, pois é necessário grande lapso temporal do servidor para este fim.\n\n2.\n\nDeverá o cartório promover a retificação do advogado da Mafre Vida S/A no sistema SAJ, para futuras publicações e intimações, conforme declinado à fl. 416.\n\nIntimem-se.\n\nApós, arquive-se.", "labels": []}

Todos os documentos salvos em uma única linha, com um "\ n" para cada quebra de linha. Ele não aparece na seção "Conjunto de dados":

image

Ao anotar os exemplos, as quebras de linha são renderizadas com sucesso:

image

A mesma abordagem funciona ao lidar com o formato csv, mas infelizmente requer pelo menos um rótulo, não permitindo usá-lo como um array vazio. Como não quero enviar nenhum valor de rótulo, tive que usar o formato jsonl, pois parece ser o único que permite uma matriz de rótulo vazia. O formato txt / texto simples espera um exemplo por linha, não sendo capaz de oferecer suporte a quebras de linha.

Todos 3 comentários

Não oferecemos suporte para que o texto inclua quebras de linha. Consulte a discussão em # 34.

Consegui resolver via arquivo .jsonl. Os dados que mostrei anteriormente foram salvos da seguinte forma:

{"text": "Processo 0000637-15.2012.8.12.0003 (003.12.000637-8) - Procedimento Comum - Inadimplemento Reqte: Fabiano Neves Gonçalves ADV: PAULO DE TARSO AZEVEDO PEGOLO (OAB 10789/MS) ADV: HENRIQUE LIMA (OAB 9979/MS) ADV: GUILHERME FERREIRA DE BRITO (OAB 9982/MS) ADV: RODRIGO LOUREIRO (OAB 13583/MS) ADV: FRANCIELLI SANCHEZ SALAZAR (OAB 15140/MS) ADV: JACÓ CARLOS SILVA COELHO (OAB 15155A/MS) ADV: IVONE CONCEIÇÃO SILVA (OAB 13609/MS) 1.\n\nCom o trânsito em julgado da sentença de fl. 393 e satisfação integral do crédito, o ofício jurisdicional acha-se cumprido e acabado, razão por que indefiro o pedido de digitalização do feito (fl. 416).\n\nAdemais, tramitam nessa unidade judiciária milhares de processos e se for admitida a digitalização de todos os feitos finalizados, haverá atraso injustificado nas atividades do cartório, pois é necessário grande lapso temporal do servidor para este fim.\n\n2.\n\nDeverá o cartório promover a retificação do advogado da Mafre Vida S/A no sistema SAJ, para futuras publicações e intimações, conforme declinado à fl. 416.\n\nIntimem-se.\n\nApós, arquive-se.", "labels": []}

Todos os documentos salvos em uma única linha, com um "\ n" para cada quebra de linha. Ele não aparece na seção "Conjunto de dados":

image

Ao anotar os exemplos, as quebras de linha são renderizadas com sucesso:

image

A mesma abordagem funciona ao lidar com o formato csv, mas infelizmente requer pelo menos um rótulo, não permitindo usá-lo como um array vazio. Como não quero enviar nenhum valor de rótulo, tive que usar o formato jsonl, pois parece ser o único que permite uma matriz de rótulo vazia. O formato txt / texto simples espera um exemplo por linha, não sendo capaz de oferecer suporte a quebras de linha.

Eu copio seu exemplo e salvo em a.txt, mas não funciona, ainda não consegue processar quebras de linha.

Meu tipo de projeto é a rotulagem de sequência.

Esta página foi útil?
0 / 5 - 0 avaliações

Questões relacionadas

miskolc picture miskolc  ·  3Comentários

attenton picture attenton  ·  3Comentários

xuanlv2 picture xuanlv2  ·  4Comentários

JordanSimba picture JordanSimba  ·  4Comentários

callmeashish picture callmeashish  ·  3Comentários