Doccano: لا يمكن تحميل ملف به فاصل أسطر داخل النص

تم إنشاؤها على ١٢ أغسطس ٢٠١٩  ·  3تعليقات  ·  مصدر: doccano/doccano

معلومات النظام

  • النظام الأساسي لنظام التشغيل والتوزيع (مثل Linux Ubuntu 16.04) :
    نظام التشغيل Windows 10
  • نسخة بايثون :
    3.6.4

صف المشكلة

أحاول تحميل ملف حيث النصوص ليست سطرًا واحدًا ، ولكن يمكن أن تحتوي على فواصل أسطر بداخلها. حتى عند استخدام تنسيق ملف JSON لفصل كل نص كخاصية بدلاً من سطر ، عند تحميل ملف ، يبدو أن Doccano لا يزال منفصلاً عبر فاصل سطر.

كود المصدر / السجلات

على سبيل المثال ، هذا ملف JSON أحاول تحميله بنص واحد بداخله:

[{"text": "Processo 0000637-15.2012.8.12.0003 (003.12.000637-8) - Procedimento Comum - Inadimplemento Reqte: Fabiano Neves Gon\u00e7alves ADV: PAULO DE TARSO AZEVEDO PEGOLO (OAB 10789/MS) ADV: HENRIQUE LIMA (OAB 9979/MS) ADV: GUILHERME FERREIRA DE BRITO (OAB 9982/MS) ADV: RODRIGO LOUREIRO (OAB 13583/MS) ADV: FRANCIELLI SANCHEZ SALAZAR (OAB 15140/MS) ADV: JAC\u00d3 CARLOS SILVA COELHO (OAB 15155A/MS) ADV: IVONE CONCEI\u00c7\u00c3O SILVA (OAB 13609/MS) 1.\nCom o tr\u00e2nsito em julgado da senten\u00e7a de fl. 393 e satisfa\u00e7\u00e3o integral do cr\u00e9dito, o of\u00edcio jurisdicional acha-se cumprido e acabado, raz\u00e3o por que indefiro o pedido de digitaliza\u00e7\u00e3o do feito (fl. 416).\nAdemais, tramitam nessa unidade judici\u00e1ria milhares de processos e se for admitida a digitaliza\u00e7\u00e3o de todos os feitos finalizados, haver\u00e1 atraso injustificado nas atividades do cart\u00f3rio, pois \u00e9 necess\u00e1rio grande lapso temporal do servidor para este fim.\n2.\nDever\u00e1 o cart\u00f3rio promover a retifica\u00e7\u00e3o do advogado da Mafre Vida S/A no sistema SAJ, para futuras publica\u00e7\u00f5es e intima\u00e7\u00f5es, conforme declinado \u00e0 fl. 416.\nIntimem-se.\nAp\u00f3s, arquive-se."}]

كانت الفكرة هي تصور النص بفواصل أسطر عند عرضه أثناء عملية التعليق التوضيحي ، ولكن ما حصلنا عليه بدلاً من ذلك هو أن Doccano كان يحول كل عبارة في النص بمفرده. للمقارنة ، تم تحميل هذا النص نفسه على النحو التالي:

image

كما تظهر الصورة ، كان النص مقطوعًا في كل فاصل أسطر ، وتم التعامل مع كل سلسلة فرعية كمستند بمفرده.

question

التعليق الأكثر فائدة

تمكنت من حلها عبر ملف jsonl. تم حفظ البيانات التي عرضتها سابقًا على النحو التالي:

{"text": "Processo 0000637-15.2012.8.12.0003 (003.12.000637-8) - Procedimento Comum - Inadimplemento Reqte: Fabiano Neves Gonçalves ADV: PAULO DE TARSO AZEVEDO PEGOLO (OAB 10789/MS) ADV: HENRIQUE LIMA (OAB 9979/MS) ADV: GUILHERME FERREIRA DE BRITO (OAB 9982/MS) ADV: RODRIGO LOUREIRO (OAB 13583/MS) ADV: FRANCIELLI SANCHEZ SALAZAR (OAB 15140/MS) ADV: JACÓ CARLOS SILVA COELHO (OAB 15155A/MS) ADV: IVONE CONCEIÇÃO SILVA (OAB 13609/MS) 1.\n\nCom o trânsito em julgado da sentença de fl. 393 e satisfação integral do crédito, o ofício jurisdicional acha-se cumprido e acabado, razão por que indefiro o pedido de digitalização do feito (fl. 416).\n\nAdemais, tramitam nessa unidade judiciária milhares de processos e se for admitida a digitalização de todos os feitos finalizados, haverá atraso injustificado nas atividades do cartório, pois é necessário grande lapso temporal do servidor para este fim.\n\n2.\n\nDeverá o cartório promover a retificação do advogado da Mafre Vida S/A no sistema SAJ, para futuras publicações e intimações, conforme declinado à fl. 416.\n\nIntimem-se.\n\nApós, arquive-se.", "labels": []}

حفظ كل مستند في سطر واحد ، مع "\ n" لكل فاصل أسطر. لا يظهر في قسم "مجموعة البيانات":

image

عند التعليق على الأمثلة ، يتم عرض فواصل الأسطر بنجاح:

image

يعمل نفس الأسلوب عند التعامل مع تنسيق csv ، ولكنه يتطلب للأسف تسمية واحدة على الأقل ، ولا يسمح باستخدامه كمصفوفة فارغة. نظرًا لأنني لا أرغب في إرسال أي قيمة تسمية ، فقد اضطررت إلى استخدام تنسيق jsonl ، حيث يبدو أنه الوحيد الذي يسمح بمصفوفة تسمية فارغة. يتوقع تنسيق txt / النص العادي مثالًا واحدًا لكل سطر ، حيث لا يكون قادرًا على دعم فواصل الأسطر على الإطلاق.

ال 3 كومينتر

لا ندعم النص يتضمن فواصل الأسطر. يرجى الرجوع إلى المناقشة في # 34.

تمكنت من حلها عبر ملف jsonl. تم حفظ البيانات التي عرضتها سابقًا على النحو التالي:

{"text": "Processo 0000637-15.2012.8.12.0003 (003.12.000637-8) - Procedimento Comum - Inadimplemento Reqte: Fabiano Neves Gonçalves ADV: PAULO DE TARSO AZEVEDO PEGOLO (OAB 10789/MS) ADV: HENRIQUE LIMA (OAB 9979/MS) ADV: GUILHERME FERREIRA DE BRITO (OAB 9982/MS) ADV: RODRIGO LOUREIRO (OAB 13583/MS) ADV: FRANCIELLI SANCHEZ SALAZAR (OAB 15140/MS) ADV: JACÓ CARLOS SILVA COELHO (OAB 15155A/MS) ADV: IVONE CONCEIÇÃO SILVA (OAB 13609/MS) 1.\n\nCom o trânsito em julgado da sentença de fl. 393 e satisfação integral do crédito, o ofício jurisdicional acha-se cumprido e acabado, razão por que indefiro o pedido de digitalização do feito (fl. 416).\n\nAdemais, tramitam nessa unidade judiciária milhares de processos e se for admitida a digitalização de todos os feitos finalizados, haverá atraso injustificado nas atividades do cartório, pois é necessário grande lapso temporal do servidor para este fim.\n\n2.\n\nDeverá o cartório promover a retificação do advogado da Mafre Vida S/A no sistema SAJ, para futuras publicações e intimações, conforme declinado à fl. 416.\n\nIntimem-se.\n\nApós, arquive-se.", "labels": []}

حفظ كل مستند في سطر واحد ، مع "\ n" لكل فاصل أسطر. لا يظهر في قسم "مجموعة البيانات":

image

عند التعليق على الأمثلة ، يتم عرض فواصل الأسطر بنجاح:

image

يعمل نفس الأسلوب عند التعامل مع تنسيق csv ، ولكنه يتطلب للأسف تسمية واحدة على الأقل ، ولا يسمح باستخدامه كمصفوفة فارغة. نظرًا لأنني لا أرغب في إرسال أي قيمة تسمية ، فقد اضطررت إلى استخدام تنسيق jsonl ، حيث يبدو أنه الوحيد الذي يسمح بمصفوفة تسمية فارغة. يتوقع تنسيق txt / النص العادي مثالًا واحدًا لكل سطر ، حيث لا يكون قادرًا على دعم فواصل الأسطر على الإطلاق.

أقوم بنسخ المثال الخاص بك ، وحفظه في ملف a.txt ، ولكنه لا يعمل ، ولا يزال يتعذر عليه عرض فواصل الأسطر.

نوع مشروعي هو وضع العلامات على التسلسل.

هل كانت هذه الصفحة مفيدة؟
0 / 5 - 0 التقييمات