Doccano: Tidak dapat mengunggah file dengan jeda baris di dalam teks

Dibuat pada 12 Agu 2019  ·  3Komentar  ·  Sumber: doccano/doccano

Sistem Informasi

  • Platform dan Distribusi OS (misalnya, Linux Ubuntu 16.04) :
    Windows 10
  • Versi Python :
    3.6.4

Jelaskan masalahnya

Saya mencoba mengunggah file di mana teksnya bukan satu baris, tetapi mereka dapat memiliki jeda baris di dalamnya. Bahkan ketika menggunakan format file JSON untuk memisahkan setiap teks sebagai properti alih-alih baris, saat mengunggah file, tampaknya Doccano masih terpisah melalui jeda baris.

Kode sumber / log

Misalnya, ini adalah file JSON yang saya coba unggah dengan satu teks di dalamnya:

[{"text": "Processo 0000637-15.2012.8.12.0003 (003.12.000637-8) - Procedimento Comum - Inadimplemento Reqte: Fabiano Neves Gon\u00e7alves ADV: PAULO DE TARSO AZEVEDO PEGOLO (OAB 10789/MS) ADV: HENRIQUE LIMA (OAB 9979/MS) ADV: GUILHERME FERREIRA DE BRITO (OAB 9982/MS) ADV: RODRIGO LOUREIRO (OAB 13583/MS) ADV: FRANCIELLI SANCHEZ SALAZAR (OAB 15140/MS) ADV: JAC\u00d3 CARLOS SILVA COELHO (OAB 15155A/MS) ADV: IVONE CONCEI\u00c7\u00c3O SILVA (OAB 13609/MS) 1.\nCom o tr\u00e2nsito em julgado da senten\u00e7a de fl. 393 e satisfa\u00e7\u00e3o integral do cr\u00e9dito, o of\u00edcio jurisdicional acha-se cumprido e acabado, raz\u00e3o por que indefiro o pedido de digitaliza\u00e7\u00e3o do feito (fl. 416).\nAdemais, tramitam nessa unidade judici\u00e1ria milhares de processos e se for admitida a digitaliza\u00e7\u00e3o de todos os feitos finalizados, haver\u00e1 atraso injustificado nas atividades do cart\u00f3rio, pois \u00e9 necess\u00e1rio grande lapso temporal do servidor para este fim.\n2.\nDever\u00e1 o cart\u00f3rio promover a retifica\u00e7\u00e3o do advogado da Mafre Vida S/A no sistema SAJ, para futuras publica\u00e7\u00f5es e intima\u00e7\u00f5es, conforme declinado \u00e0 fl. 416.\nIntimem-se.\nAp\u00f3s, arquive-se."}]

Idenya adalah untuk memvisualisasikan teks dengan jeda baris saat menampilkannya selama proses anotasi, tetapi yang kami dapatkan adalah bahwa Doccano mengubah setiap frasa dalam teks dengan sendirinya. Sebagai perbandingan, teks yang sama ini diunggah sebagai berikut:

image

Seperti yang ditunjukkan gambar, teks terputus di setiap jeda baris, dan setiap substring diperlakukan sebagai dokumen saja.

question

Komentar yang paling membantu

Saya berhasil menyelesaikannya melalui file .jsonl. Data yang saya tunjukkan sebelumnya disimpan sebagai berikut:

{"text": "Processo 0000637-15.2012.8.12.0003 (003.12.000637-8) - Procedimento Comum - Inadimplemento Reqte: Fabiano Neves Gonçalves ADV: PAULO DE TARSO AZEVEDO PEGOLO (OAB 10789/MS) ADV: HENRIQUE LIMA (OAB 9979/MS) ADV: GUILHERME FERREIRA DE BRITO (OAB 9982/MS) ADV: RODRIGO LOUREIRO (OAB 13583/MS) ADV: FRANCIELLI SANCHEZ SALAZAR (OAB 15140/MS) ADV: JACÓ CARLOS SILVA COELHO (OAB 15155A/MS) ADV: IVONE CONCEIÇÃO SILVA (OAB 13609/MS) 1.\n\nCom o trânsito em julgado da sentença de fl. 393 e satisfação integral do crédito, o ofício jurisdicional acha-se cumprido e acabado, razão por que indefiro o pedido de digitalização do feito (fl. 416).\n\nAdemais, tramitam nessa unidade judiciária milhares de processos e se for admitida a digitalização de todos os feitos finalizados, haverá atraso injustificado nas atividades do cartório, pois é necessário grande lapso temporal do servidor para este fim.\n\n2.\n\nDeverá o cartório promover a retificação do advogado da Mafre Vida S/A no sistema SAJ, para futuras publicações e intimações, conforme declinado à fl. 416.\n\nIntimem-se.\n\nApós, arquive-se.", "labels": []}

Menyimpan setiap dokumen dalam satu baris, dengan "\n" untuk setiap jeda baris. Itu tidak muncul di bagian "Dataset":

image

Saat memberi anotasi pada contoh, jeda baris berhasil dirender:

image

Pendekatan yang sama bekerja ketika berhadapan dengan format csv, tapi sayangnya membutuhkan setidaknya satu label, tidak memungkinkan menggunakannya sebagai array kosong. Karena saya tidak ingin mengirim nilai label apa pun, saya harus menggunakan format jsonl, karena sepertinya itu satu-satunya yang mengizinkan array label kosong. Format txt/teks biasa mengharapkan satu contoh per baris, tidak dapat mendukung jeda baris sama sekali.

Semua 3 komentar

Kami tidak mendukung teks termasuk jeda baris. Silakan lihat diskusi di #34.

Saya berhasil menyelesaikannya melalui file .jsonl. Data yang saya tunjukkan sebelumnya disimpan sebagai berikut:

{"text": "Processo 0000637-15.2012.8.12.0003 (003.12.000637-8) - Procedimento Comum - Inadimplemento Reqte: Fabiano Neves Gonçalves ADV: PAULO DE TARSO AZEVEDO PEGOLO (OAB 10789/MS) ADV: HENRIQUE LIMA (OAB 9979/MS) ADV: GUILHERME FERREIRA DE BRITO (OAB 9982/MS) ADV: RODRIGO LOUREIRO (OAB 13583/MS) ADV: FRANCIELLI SANCHEZ SALAZAR (OAB 15140/MS) ADV: JACÓ CARLOS SILVA COELHO (OAB 15155A/MS) ADV: IVONE CONCEIÇÃO SILVA (OAB 13609/MS) 1.\n\nCom o trânsito em julgado da sentença de fl. 393 e satisfação integral do crédito, o ofício jurisdicional acha-se cumprido e acabado, razão por que indefiro o pedido de digitalização do feito (fl. 416).\n\nAdemais, tramitam nessa unidade judiciária milhares de processos e se for admitida a digitalização de todos os feitos finalizados, haverá atraso injustificado nas atividades do cartório, pois é necessário grande lapso temporal do servidor para este fim.\n\n2.\n\nDeverá o cartório promover a retificação do advogado da Mafre Vida S/A no sistema SAJ, para futuras publicações e intimações, conforme declinado à fl. 416.\n\nIntimem-se.\n\nApós, arquive-se.", "labels": []}

Menyimpan setiap dokumen dalam satu baris, dengan "\n" untuk setiap jeda baris. Itu tidak muncul di bagian "Dataset":

image

Saat memberi anotasi pada contoh, jeda baris berhasil dirender:

image

Pendekatan yang sama bekerja ketika berhadapan dengan format csv, tapi sayangnya membutuhkan setidaknya satu label, tidak memungkinkan menggunakannya sebagai array kosong. Karena saya tidak ingin mengirim nilai label apa pun, saya harus menggunakan format jsonl, karena sepertinya itu satu-satunya yang mengizinkan array label kosong. Format txt/teks biasa mengharapkan satu contoh per baris, tidak dapat mendukung jeda baris sama sekali.

Saya menyalin contoh Anda, dan menyimpan ke a.txt, tetapi tidak berfungsi, masih tidak dapat membuat jeda baris.

Jenis proyek saya adalah pelabelan urutan.

Apakah halaman ini membantu?
0 / 5 - 0 peringkat