Estou tentando fazer upload de um arquivo onde os textos não são uma única linha, mas podem ter quebras de linha dentro deles. Mesmo ao usar o formato de arquivo JSON para separar cada texto como propriedade em vez de uma linha, ao fazer upload de um arquivo, parece que o Doccano ainda se separa por quebra de linha.
Por exemplo, este é um arquivo JSON que estou tentando enviar com um único texto dentro dele:
[{"text": "Processo 0000637-15.2012.8.12.0003 (003.12.000637-8) - Procedimento Comum - Inadimplemento Reqte: Fabiano Neves Gon\u00e7alves ADV: PAULO DE TARSO AZEVEDO PEGOLO (OAB 10789/MS) ADV: HENRIQUE LIMA (OAB 9979/MS) ADV: GUILHERME FERREIRA DE BRITO (OAB 9982/MS) ADV: RODRIGO LOUREIRO (OAB 13583/MS) ADV: FRANCIELLI SANCHEZ SALAZAR (OAB 15140/MS) ADV: JAC\u00d3 CARLOS SILVA COELHO (OAB 15155A/MS) ADV: IVONE CONCEI\u00c7\u00c3O SILVA (OAB 13609/MS) 1.\nCom o tr\u00e2nsito em julgado da senten\u00e7a de fl. 393 e satisfa\u00e7\u00e3o integral do cr\u00e9dito, o of\u00edcio jurisdicional acha-se cumprido e acabado, raz\u00e3o por que indefiro o pedido de digitaliza\u00e7\u00e3o do feito (fl. 416).\nAdemais, tramitam nessa unidade judici\u00e1ria milhares de processos e se for admitida a digitaliza\u00e7\u00e3o de todos os feitos finalizados, haver\u00e1 atraso injustificado nas atividades do cart\u00f3rio, pois \u00e9 necess\u00e1rio grande lapso temporal do servidor para este fim.\n2.\nDever\u00e1 o cart\u00f3rio promover a retifica\u00e7\u00e3o do advogado da Mafre Vida S/A no sistema SAJ, para futuras publica\u00e7\u00f5es e intima\u00e7\u00f5es, conforme declinado \u00e0 fl. 416.\nIntimem-se.\nAp\u00f3s, arquive-se."}]
A ideia era visualizar o texto com quebras de linha ao mostrá-lo durante o processo de anotação, mas o que conseguimos foi que o Doccano estava transformando cada frase em um texto por si só. Para comparação, este mesmo texto foi carregado como este:
Como mostra a imagem, o texto foi quebrado em cada quebra de linha e cada substring foi tratada como um documento sozinho.
Não oferecemos suporte para que o texto inclua quebras de linha. Consulte a discussão em # 34.
Consegui resolver via arquivo .jsonl. Os dados que mostrei anteriormente foram salvos da seguinte forma:
{"text": "Processo 0000637-15.2012.8.12.0003 (003.12.000637-8) - Procedimento Comum - Inadimplemento Reqte: Fabiano Neves Gonçalves ADV: PAULO DE TARSO AZEVEDO PEGOLO (OAB 10789/MS) ADV: HENRIQUE LIMA (OAB 9979/MS) ADV: GUILHERME FERREIRA DE BRITO (OAB 9982/MS) ADV: RODRIGO LOUREIRO (OAB 13583/MS) ADV: FRANCIELLI SANCHEZ SALAZAR (OAB 15140/MS) ADV: JACÓ CARLOS SILVA COELHO (OAB 15155A/MS) ADV: IVONE CONCEIÇÃO SILVA (OAB 13609/MS) 1.\n\nCom o trânsito em julgado da sentença de fl. 393 e satisfação integral do crédito, o ofício jurisdicional acha-se cumprido e acabado, razão por que indefiro o pedido de digitalização do feito (fl. 416).\n\nAdemais, tramitam nessa unidade judiciária milhares de processos e se for admitida a digitalização de todos os feitos finalizados, haverá atraso injustificado nas atividades do cartório, pois é necessário grande lapso temporal do servidor para este fim.\n\n2.\n\nDeverá o cartório promover a retificação do advogado da Mafre Vida S/A no sistema SAJ, para futuras publicações e intimações, conforme declinado à fl. 416.\n\nIntimem-se.\n\nApós, arquive-se.", "labels": []}
Todos os documentos salvos em uma única linha, com um "\ n" para cada quebra de linha. Ele não aparece na seção "Conjunto de dados":
Ao anotar os exemplos, as quebras de linha são renderizadas com sucesso:
A mesma abordagem funciona ao lidar com o formato csv, mas infelizmente requer pelo menos um rótulo, não permitindo usá-lo como um array vazio. Como não quero enviar nenhum valor de rótulo, tive que usar o formato jsonl, pois parece ser o único que permite uma matriz de rótulo vazia. O formato txt / texto simples espera um exemplo por linha, não sendo capaz de oferecer suporte a quebras de linha.
Eu copio seu exemplo e salvo em a.txt, mas não funciona, ainda não consegue processar quebras de linha.
Meu tipo de projeto é a rotulagem de sequência.
Comentários muito úteis
Consegui resolver via arquivo .jsonl. Os dados que mostrei anteriormente foram salvos da seguinte forma:
{"text": "Processo 0000637-15.2012.8.12.0003 (003.12.000637-8) - Procedimento Comum - Inadimplemento Reqte: Fabiano Neves Gonçalves ADV: PAULO DE TARSO AZEVEDO PEGOLO (OAB 10789/MS) ADV: HENRIQUE LIMA (OAB 9979/MS) ADV: GUILHERME FERREIRA DE BRITO (OAB 9982/MS) ADV: RODRIGO LOUREIRO (OAB 13583/MS) ADV: FRANCIELLI SANCHEZ SALAZAR (OAB 15140/MS) ADV: JACÓ CARLOS SILVA COELHO (OAB 15155A/MS) ADV: IVONE CONCEIÇÃO SILVA (OAB 13609/MS) 1.\n\nCom o trânsito em julgado da sentença de fl. 393 e satisfação integral do crédito, o ofício jurisdicional acha-se cumprido e acabado, razão por que indefiro o pedido de digitalização do feito (fl. 416).\n\nAdemais, tramitam nessa unidade judiciária milhares de processos e se for admitida a digitalização de todos os feitos finalizados, haverá atraso injustificado nas atividades do cartório, pois é necessário grande lapso temporal do servidor para este fim.\n\n2.\n\nDeverá o cartório promover a retificação do advogado da Mafre Vida S/A no sistema SAJ, para futuras publicações e intimações, conforme declinado à fl. 416.\n\nIntimem-se.\n\nApós, arquive-se.", "labels": []}
Todos os documentos salvos em uma única linha, com um "\ n" para cada quebra de linha. Ele não aparece na seção "Conjunto de dados":
Ao anotar os exemplos, as quebras de linha são renderizadas com sucesso:
A mesma abordagem funciona ao lidar com o formato csv, mas infelizmente requer pelo menos um rótulo, não permitindo usá-lo como um array vazio. Como não quero enviar nenhum valor de rótulo, tive que usar o formato jsonl, pois parece ser o único que permite uma matriz de rótulo vazia. O formato txt / texto simples espera um exemplo por linha, não sendo capaz de oferecer suporte a quebras de linha.