Doccano: Datei mit Zeilenumbruch im Text kann nicht hochgeladen werden

Erstellt am 12. Aug. 2019  ·  3Kommentare  ·  Quelle: doccano/doccano

System Information

  • Betriebssystemplattform und -verteilung (z. B. Linux Ubuntu 16.04) :
    Windows 10
  • Python-Version :
    3.6.4

Beschreibe das Problem

Ich versuche, eine Datei hochzuladen, in der die Texte keine einzelne Zeile sind, aber Zeilenumbrüche enthalten können. Selbst wenn das JSON-Dateiformat verwendet wird, um jeden Text als Eigenschaft anstelle einer Zeile zu trennen, scheint Doccano beim Hochladen einer Datei immer noch durch einen Zeilenumbruch zu trennen.

Quellcode / Protokolle

Dies ist beispielsweise eine JSON-Datei, die ich mit einem einzelnen Text darin hochzuladen versuche:

[{"text": "Processo 0000637-15.2012.8.12.0003 (003.12.000637-8) - Procedimento Comum - Inadimplemento Reqte: Fabiano Neves Gon\u00e7alves ADV: PAULO DE TARSO AZEVEDO PEGOLO (OAB 10789/MS) ADV: HENRIQUE LIMA (OAB 9979/MS) ADV: GUILHERME FERREIRA DE BRITO (OAB 9982/MS) ADV: RODRIGO LOUREIRO (OAB 13583/MS) ADV: FRANCIELLI SANCHEZ SALAZAR (OAB 15140/MS) ADV: JAC\u00d3 CARLOS SILVA COELHO (OAB 15155A/MS) ADV: IVONE CONCEI\u00c7\u00c3O SILVA (OAB 13609/MS) 1.\nCom o tr\u00e2nsito em julgado da senten\u00e7a de fl. 393 e satisfa\u00e7\u00e3o integral do cr\u00e9dito, o of\u00edcio jurisdicional acha-se cumprido e acabado, raz\u00e3o por que indefiro o pedido de digitaliza\u00e7\u00e3o do feito (fl. 416).\nAdemais, tramitam nessa unidade judici\u00e1ria milhares de processos e se for admitida a digitaliza\u00e7\u00e3o de todos os feitos finalizados, haver\u00e1 atraso injustificado nas atividades do cart\u00f3rio, pois \u00e9 necess\u00e1rio grande lapso temporal do servidor para este fim.\n2.\nDever\u00e1 o cart\u00f3rio promover a retifica\u00e7\u00e3o do advogado da Mafre Vida S/A no sistema SAJ, para futuras publica\u00e7\u00f5es e intima\u00e7\u00f5es, conforme declinado \u00e0 fl. 416.\nIntimem-se.\nAp\u00f3s, arquive-se."}]

Die Idee war, den Text mit Zeilenumbrüchen zu visualisieren, wenn er während des Annotationsprozesses angezeigt wird, aber stattdessen haben wir festgestellt, dass Doccano jeden Satz in einem Text selbst umwandelt. Zum Vergleich wurde derselbe Text wie folgt hochgeladen:

image

Wie das Bild zeigt, wurde der Text in jedem Zeilenumbruch umgebrochen und jeder Teilstring wurde als alleiniges Dokument behandelt.

question

Hilfreichster Kommentar

Ich habe es geschafft, es über die .jsonl-Datei zu lösen. Die Daten, die ich zuvor gezeigt habe, wurden wie folgt gespeichert:

{"text": "Processo 0000637-15.2012.8.12.0003 (003.12.000637-8) - Procedimento Comum - Inadimplemento Reqte: Fabiano Neves Gonçalves ADV: PAULO DE TARSO AZEVEDO PEGOLO (OAB 10789/MS) ADV: HENRIQUE LIMA (OAB 9979/MS) ADV: GUILHERME FERREIRA DE BRITO (OAB 9982/MS) ADV: RODRIGO LOUREIRO (OAB 13583/MS) ADV: FRANCIELLI SANCHEZ SALAZAR (OAB 15140/MS) ADV: JACÓ CARLOS SILVA COELHO (OAB 15155A/MS) ADV: IVONE CONCEIÇÃO SILVA (OAB 13609/MS) 1.\n\nCom o trânsito em julgado da sentença de fl. 393 e satisfação integral do crédito, o ofício jurisdicional acha-se cumprido e acabado, razão por que indefiro o pedido de digitalização do feito (fl. 416).\n\nAdemais, tramitam nessa unidade judiciária milhares de processos e se for admitida a digitalização de todos os feitos finalizados, haverá atraso injustificado nas atividades do cartório, pois é necessário grande lapso temporal do servidor para este fim.\n\n2.\n\nDeverá o cartório promover a retificação do advogado da Mafre Vida S/A no sistema SAJ, para futuras publicações e intimações, conforme declinado à fl. 416.\n\nIntimem-se.\n\nApós, arquive-se.", "labels": []}

Jedes Dokument in einer einzigen Zeile gespeichert, mit einem "\n" für jeden Zeilenumbruch. Es erscheint nicht im Abschnitt "Dataset":

image

Beim Annotieren der Beispiele werden die Zeilenumbrüche erfolgreich gerendert:

image

Der gleiche Ansatz funktioniert beim Umgang mit dem CSV-Format, erfordert jedoch leider mindestens ein Label, sodass es nicht als leeres Array verwendet werden kann. Da ich keinen Labelwert senden möchte, musste ich das jsonl-Format verwenden, da es anscheinend das einzige ist, das ein leeres Label-Array zulässt. Das txt/nur-Text-Format erwartet ein Beispiel pro Zeile und kann Zeilenumbrüche überhaupt nicht unterstützen.

Alle 3 Kommentare

Wir unterstützen nicht, dass der Text Zeilenumbrüche enthält. Bitte beachten Sie die Diskussion unter #34.

Ich habe es geschafft, es über die .jsonl-Datei zu lösen. Die Daten, die ich zuvor gezeigt habe, wurden wie folgt gespeichert:

{"text": "Processo 0000637-15.2012.8.12.0003 (003.12.000637-8) - Procedimento Comum - Inadimplemento Reqte: Fabiano Neves Gonçalves ADV: PAULO DE TARSO AZEVEDO PEGOLO (OAB 10789/MS) ADV: HENRIQUE LIMA (OAB 9979/MS) ADV: GUILHERME FERREIRA DE BRITO (OAB 9982/MS) ADV: RODRIGO LOUREIRO (OAB 13583/MS) ADV: FRANCIELLI SANCHEZ SALAZAR (OAB 15140/MS) ADV: JACÓ CARLOS SILVA COELHO (OAB 15155A/MS) ADV: IVONE CONCEIÇÃO SILVA (OAB 13609/MS) 1.\n\nCom o trânsito em julgado da sentença de fl. 393 e satisfação integral do crédito, o ofício jurisdicional acha-se cumprido e acabado, razão por que indefiro o pedido de digitalização do feito (fl. 416).\n\nAdemais, tramitam nessa unidade judiciária milhares de processos e se for admitida a digitalização de todos os feitos finalizados, haverá atraso injustificado nas atividades do cartório, pois é necessário grande lapso temporal do servidor para este fim.\n\n2.\n\nDeverá o cartório promover a retificação do advogado da Mafre Vida S/A no sistema SAJ, para futuras publicações e intimações, conforme declinado à fl. 416.\n\nIntimem-se.\n\nApós, arquive-se.", "labels": []}

Jedes Dokument in einer einzigen Zeile gespeichert, mit einem "\n" für jeden Zeilenumbruch. Es erscheint nicht im Abschnitt "Dataset":

image

Beim Annotieren der Beispiele werden die Zeilenumbrüche erfolgreich gerendert:

image

Der gleiche Ansatz funktioniert beim Umgang mit dem CSV-Format, erfordert jedoch leider mindestens ein Label, sodass es nicht als leeres Array verwendet werden kann. Da ich keinen Labelwert senden möchte, musste ich das jsonl-Format verwenden, da es anscheinend das einzige ist, das ein leeres Label-Array zulässt. Das txt/nur-Text-Format erwartet ein Beispiel pro Zeile und kann Zeilenumbrüche überhaupt nicht unterstützen.

Ich kopiere dein Beispiel und speichere es in a.txt, aber es funktioniert nicht, es kann immer noch keine Zeilenumbrüche rendern.

Mein Projekttyp ist Sequenzkennzeichnung.

War diese Seite hilfreich?
0 / 5 - 0 Bewertungen