Doccano: Impossible de télécharger un fichier avec un saut de ligne dans le texte

Créé le 12 août 2019  ·  3Commentaires  ·  Source: doccano/doccano

Informations système

  • Plate-forme et distribution du système d'exploitation (par exemple, Linux Ubuntu 16.04) :
    Windows 10
  • Version Python :
    3.6.4

Décris le problème

J'essaie de télécharger un fichier où les textes ne sont pas sur une seule ligne, mais ils peuvent contenir des sauts de ligne. Même lorsque vous utilisez le format de fichier JSON pour séparer chaque texte en tant que propriété au lieu d'une ligne, lors du téléchargement d'un fichier, il semble que Doccano se sépare toujours via un saut de ligne.

Code source / journaux

Par exemple, il s'agit d'un fichier JSON que j'essaie de télécharger avec un seul texte à l'intérieur :

[{"text": "Processo 0000637-15.2012.8.12.0003 (003.12.000637-8) - Procedimento Comum - Inadimplemento Reqte: Fabiano Neves Gon\u00e7alves ADV: PAULO DE TARSO AZEVEDO PEGOLO (OAB 10789/MS) ADV: HENRIQUE LIMA (OAB 9979/MS) ADV: GUILHERME FERREIRA DE BRITO (OAB 9982/MS) ADV: RODRIGO LOUREIRO (OAB 13583/MS) ADV: FRANCIELLI SANCHEZ SALAZAR (OAB 15140/MS) ADV: JAC\u00d3 CARLOS SILVA COELHO (OAB 15155A/MS) ADV: IVONE CONCEI\u00c7\u00c3O SILVA (OAB 13609/MS) 1.\nCom o tr\u00e2nsito em julgado da senten\u00e7a de fl. 393 e satisfa\u00e7\u00e3o integral do cr\u00e9dito, o of\u00edcio jurisdicional acha-se cumprido e acabado, raz\u00e3o por que indefiro o pedido de digitaliza\u00e7\u00e3o do feito (fl. 416).\nAdemais, tramitam nessa unidade judici\u00e1ria milhares de processos e se for admitida a digitaliza\u00e7\u00e3o de todos os feitos finalizados, haver\u00e1 atraso injustificado nas atividades do cart\u00f3rio, pois \u00e9 necess\u00e1rio grande lapso temporal do servidor para este fim.\n2.\nDever\u00e1 o cart\u00f3rio promover a retifica\u00e7\u00e3o do advogado da Mafre Vida S/A no sistema SAJ, para futuras publica\u00e7\u00f5es e intima\u00e7\u00f5es, conforme declinado \u00e0 fl. 416.\nIntimem-se.\nAp\u00f3s, arquive-se."}]

L'idée était de visualiser le texte avec des sauts de ligne lors de l'affichage pendant le processus d'annotation, mais à la place, ce que nous avons obtenu, c'est que Doccano transformait chaque phrase d'un texte par lui-même. À titre de comparaison, ce même texte a été téléchargé comme ceci :

image

Comme le montre l'image, le texte était cassé à chaque saut de ligne et chaque sous-chaîne était traitée comme un document seul.

question

Commentaire le plus utile

J'ai réussi à le résoudre via le fichier .jsonl. Les données que j'ai précédemment montrées ont été enregistrées comme suit :

{"text": "Processo 0000637-15.2012.8.12.0003 (003.12.000637-8) - Procedimento Comum - Inadimplemento Reqte: Fabiano Neves Gonçalves ADV: PAULO DE TARSO AZEVEDO PEGOLO (OAB 10789/MS) ADV: HENRIQUE LIMA (OAB 9979/MS) ADV: GUILHERME FERREIRA DE BRITO (OAB 9982/MS) ADV: RODRIGO LOUREIRO (OAB 13583/MS) ADV: FRANCIELLI SANCHEZ SALAZAR (OAB 15140/MS) ADV: JACÓ CARLOS SILVA COELHO (OAB 15155A/MS) ADV: IVONE CONCEIÇÃO SILVA (OAB 13609/MS) 1.\n\nCom o trânsito em julgado da sentença de fl. 393 e satisfação integral do crédito, o ofício jurisdicional acha-se cumprido e acabado, razão por que indefiro o pedido de digitalização do feito (fl. 416).\n\nAdemais, tramitam nessa unidade judiciária milhares de processos e se for admitida a digitalização de todos os feitos finalizados, haverá atraso injustificado nas atividades do cartório, pois é necessário grande lapso temporal do servidor para este fim.\n\n2.\n\nDeverá o cartório promover a retificação do advogado da Mafre Vida S/A no sistema SAJ, para futuras publicações e intimações, conforme declinado à fl. 416.\n\nIntimem-se.\n\nApós, arquive-se.", "labels": []}

Enregistré chaque document sur une seule ligne, avec un "\n" pour chaque saut de ligne. Il n'apparaît pas dans la section "Ensemble de données" :

image

Lors de l'annotation des exemples, les sauts de ligne sont rendus avec succès :

image

La même approche fonctionne avec le format csv, mais malheureusement, elle nécessite au moins une étiquette, ce qui ne permet pas de l'utiliser comme un tableau vide. Parce que je ne veux envoyer aucune valeur d'étiquette, j'ai dû utiliser le format jsonl, car il semble être le seul à autoriser un tableau d'étiquettes vide. Le format txt/texte brut attend un exemple par ligne, ne pouvant pas du tout prendre en charge les sauts de ligne.

Tous les 3 commentaires

Nous ne prenons pas en charge le texte qui inclut des sauts de ligne. Veuillez vous référer à la discussion au #34.

J'ai réussi à le résoudre via le fichier .jsonl. Les données que j'ai précédemment montrées ont été enregistrées comme suit :

{"text": "Processo 0000637-15.2012.8.12.0003 (003.12.000637-8) - Procedimento Comum - Inadimplemento Reqte: Fabiano Neves Gonçalves ADV: PAULO DE TARSO AZEVEDO PEGOLO (OAB 10789/MS) ADV: HENRIQUE LIMA (OAB 9979/MS) ADV: GUILHERME FERREIRA DE BRITO (OAB 9982/MS) ADV: RODRIGO LOUREIRO (OAB 13583/MS) ADV: FRANCIELLI SANCHEZ SALAZAR (OAB 15140/MS) ADV: JACÓ CARLOS SILVA COELHO (OAB 15155A/MS) ADV: IVONE CONCEIÇÃO SILVA (OAB 13609/MS) 1.\n\nCom o trânsito em julgado da sentença de fl. 393 e satisfação integral do crédito, o ofício jurisdicional acha-se cumprido e acabado, razão por que indefiro o pedido de digitalização do feito (fl. 416).\n\nAdemais, tramitam nessa unidade judiciária milhares de processos e se for admitida a digitalização de todos os feitos finalizados, haverá atraso injustificado nas atividades do cartório, pois é necessário grande lapso temporal do servidor para este fim.\n\n2.\n\nDeverá o cartório promover a retificação do advogado da Mafre Vida S/A no sistema SAJ, para futuras publicações e intimações, conforme declinado à fl. 416.\n\nIntimem-se.\n\nApós, arquive-se.", "labels": []}

Enregistré chaque document sur une seule ligne, avec un "\n" pour chaque saut de ligne. Il n'apparaît pas dans la section "Ensemble de données" :

image

Lors de l'annotation des exemples, les sauts de ligne sont rendus avec succès :

image

La même approche fonctionne avec le format csv, mais malheureusement, elle nécessite au moins une étiquette, ce qui ne permet pas de l'utiliser comme un tableau vide. Parce que je ne veux envoyer aucune valeur d'étiquette, j'ai dû utiliser le format jsonl, car il semble être le seul à autoriser un tableau d'étiquettes vide. Le format txt/texte brut attend un exemple par ligne, ne pouvant pas du tout prendre en charge les sauts de ligne.

Je copie votre exemple et l'enregistre dans un.txt, mais cela ne fonctionne pas, il ne peut toujours pas rendre les sauts de ligne.

Mon type de projet est l'étiquetage de séquence.

Cette page vous a été utile?
0 / 5 - 0 notes