Doccano: No se puede cargar un archivo con un salto de línea dentro del texto

Creado en 12 ago. 2019  ·  3Comentarios  ·  Fuente: doccano/doccano

Información del sistema

  • Plataforma y distribución del sistema operativo (por ejemplo, Linux Ubuntu 16.04) :
    Windows 10
  • Versión de Python :
    3.6.4

Describe el problema

Estoy intentando cargar un archivo donde los textos no son una sola línea, pero pueden tener saltos de línea dentro de ellos. Incluso cuando se usa el formato de archivo JSON para separar cada texto como propiedad en lugar de una línea, cuando se carga un archivo, parece que Doccano aún se separa mediante un salto de línea.

Código fuente / registros

Por ejemplo, este es un archivo JSON que estoy tratando de cargar con un solo texto dentro:

[{"text": "Processo 0000637-15.2012.8.12.0003 (003.12.000637-8) - Procedimento Comum - Inadimplemento Reqte: Fabiano Neves Gon\u00e7alves ADV: PAULO DE TARSO AZEVEDO PEGOLO (OAB 10789/MS) ADV: HENRIQUE LIMA (OAB 9979/MS) ADV: GUILHERME FERREIRA DE BRITO (OAB 9982/MS) ADV: RODRIGO LOUREIRO (OAB 13583/MS) ADV: FRANCIELLI SANCHEZ SALAZAR (OAB 15140/MS) ADV: JAC\u00d3 CARLOS SILVA COELHO (OAB 15155A/MS) ADV: IVONE CONCEI\u00c7\u00c3O SILVA (OAB 13609/MS) 1.\nCom o tr\u00e2nsito em julgado da senten\u00e7a de fl. 393 e satisfa\u00e7\u00e3o integral do cr\u00e9dito, o of\u00edcio jurisdicional acha-se cumprido e acabado, raz\u00e3o por que indefiro o pedido de digitaliza\u00e7\u00e3o do feito (fl. 416).\nAdemais, tramitam nessa unidade judici\u00e1ria milhares de processos e se for admitida a digitaliza\u00e7\u00e3o de todos os feitos finalizados, haver\u00e1 atraso injustificado nas atividades do cart\u00f3rio, pois \u00e9 necess\u00e1rio grande lapso temporal do servidor para este fim.\n2.\nDever\u00e1 o cart\u00f3rio promover a retifica\u00e7\u00e3o do advogado da Mafre Vida S/A no sistema SAJ, para futuras publica\u00e7\u00f5es e intima\u00e7\u00f5es, conforme declinado \u00e0 fl. 416.\nIntimem-se.\nAp\u00f3s, arquive-se."}]

La idea era visualizar el texto con saltos de línea al mostrarlo durante el proceso de anotación, pero lo que obtuvimos fue que Doccano estaba transformando cada frase en un texto por sí mismo. A modo de comparación, este mismo texto se cargó como este:

image

Como muestra la imagen, el texto se rompió en cada salto de línea y cada subcadena se trató como un documento solo.

question

Comentario más útil

Logré resolverlo a través del archivo .jsonl. Los datos que mostré anteriormente se guardaron de la siguiente manera:

{"text": "Processo 0000637-15.2012.8.12.0003 (003.12.000637-8) - Procedimento Comum - Inadimplemento Reqte: Fabiano Neves Gonçalves ADV: PAULO DE TARSO AZEVEDO PEGOLO (OAB 10789/MS) ADV: HENRIQUE LIMA (OAB 9979/MS) ADV: GUILHERME FERREIRA DE BRITO (OAB 9982/MS) ADV: RODRIGO LOUREIRO (OAB 13583/MS) ADV: FRANCIELLI SANCHEZ SALAZAR (OAB 15140/MS) ADV: JACÓ CARLOS SILVA COELHO (OAB 15155A/MS) ADV: IVONE CONCEIÇÃO SILVA (OAB 13609/MS) 1.\n\nCom o trânsito em julgado da sentença de fl. 393 e satisfação integral do crédito, o ofício jurisdicional acha-se cumprido e acabado, razão por que indefiro o pedido de digitalização do feito (fl. 416).\n\nAdemais, tramitam nessa unidade judiciária milhares de processos e se for admitida a digitalização de todos os feitos finalizados, haverá atraso injustificado nas atividades do cartório, pois é necessário grande lapso temporal do servidor para este fim.\n\n2.\n\nDeverá o cartório promover a retificação do advogado da Mafre Vida S/A no sistema SAJ, para futuras publicações e intimações, conforme declinado à fl. 416.\n\nIntimem-se.\n\nApós, arquive-se.", "labels": []}

Se guardó cada documento en una sola línea, con una "\ n" para cada salto de línea. No aparece en la sección "Conjunto de datos":

image

Al anotar los ejemplos, los saltos de línea se representan correctamente:

image

El mismo enfoque funciona cuando se trata de formato csv, pero desafortunadamente requiere al menos una etiqueta, lo que no permite usarlo como una matriz vacía. Debido a que no quiero enviar ningún valor de etiqueta, tuve que usar el formato jsonl, ya que parece ser el único que permite una matriz de etiquetas vacía. El formato txt / texto sin formato espera un ejemplo por línea, no pudiendo admitir saltos de línea en absoluto.

Todos 3 comentarios

No admitimos que el texto incluya saltos de línea. Consulte la discusión en el n. ° 34.

Logré resolverlo a través del archivo .jsonl. Los datos que mostré anteriormente se guardaron de la siguiente manera:

{"text": "Processo 0000637-15.2012.8.12.0003 (003.12.000637-8) - Procedimento Comum - Inadimplemento Reqte: Fabiano Neves Gonçalves ADV: PAULO DE TARSO AZEVEDO PEGOLO (OAB 10789/MS) ADV: HENRIQUE LIMA (OAB 9979/MS) ADV: GUILHERME FERREIRA DE BRITO (OAB 9982/MS) ADV: RODRIGO LOUREIRO (OAB 13583/MS) ADV: FRANCIELLI SANCHEZ SALAZAR (OAB 15140/MS) ADV: JACÓ CARLOS SILVA COELHO (OAB 15155A/MS) ADV: IVONE CONCEIÇÃO SILVA (OAB 13609/MS) 1.\n\nCom o trânsito em julgado da sentença de fl. 393 e satisfação integral do crédito, o ofício jurisdicional acha-se cumprido e acabado, razão por que indefiro o pedido de digitalização do feito (fl. 416).\n\nAdemais, tramitam nessa unidade judiciária milhares de processos e se for admitida a digitalização de todos os feitos finalizados, haverá atraso injustificado nas atividades do cartório, pois é necessário grande lapso temporal do servidor para este fim.\n\n2.\n\nDeverá o cartório promover a retificação do advogado da Mafre Vida S/A no sistema SAJ, para futuras publicações e intimações, conforme declinado à fl. 416.\n\nIntimem-se.\n\nApós, arquive-se.", "labels": []}

Se guardó cada documento en una sola línea, con una "\ n" para cada salto de línea. No aparece en la sección "Conjunto de datos":

image

Al anotar los ejemplos, los saltos de línea se representan correctamente:

image

El mismo enfoque funciona cuando se trata de formato csv, pero desafortunadamente requiere al menos una etiqueta, lo que no permite usarlo como una matriz vacía. Debido a que no quiero enviar ningún valor de etiqueta, tuve que usar el formato jsonl, ya que parece ser el único que permite una matriz de etiquetas vacía. El formato txt / texto sin formato espera un ejemplo por línea, no pudiendo admitir saltos de línea en absoluto.

Copio su ejemplo y lo guardo en un.txt, pero no funciona, todavía no puede representar saltos de línea.

Mi tipo de proyecto es el etiquetado de secuencias.

¿Fue útil esta página
0 / 5 - 0 calificaciones