أحاول تحميل ملف حيث النصوص ليست سطرًا واحدًا ، ولكن يمكن أن تحتوي على فواصل أسطر بداخلها. حتى عند استخدام تنسيق ملف JSON لفصل كل نص كخاصية بدلاً من سطر ، عند تحميل ملف ، يبدو أن Doccano لا يزال منفصلاً عبر فاصل سطر.
على سبيل المثال ، هذا ملف JSON أحاول تحميله بنص واحد بداخله:
[{"text": "Processo 0000637-15.2012.8.12.0003 (003.12.000637-8) - Procedimento Comum - Inadimplemento Reqte: Fabiano Neves Gon\u00e7alves ADV: PAULO DE TARSO AZEVEDO PEGOLO (OAB 10789/MS) ADV: HENRIQUE LIMA (OAB 9979/MS) ADV: GUILHERME FERREIRA DE BRITO (OAB 9982/MS) ADV: RODRIGO LOUREIRO (OAB 13583/MS) ADV: FRANCIELLI SANCHEZ SALAZAR (OAB 15140/MS) ADV: JAC\u00d3 CARLOS SILVA COELHO (OAB 15155A/MS) ADV: IVONE CONCEI\u00c7\u00c3O SILVA (OAB 13609/MS) 1.\nCom o tr\u00e2nsito em julgado da senten\u00e7a de fl. 393 e satisfa\u00e7\u00e3o integral do cr\u00e9dito, o of\u00edcio jurisdicional acha-se cumprido e acabado, raz\u00e3o por que indefiro o pedido de digitaliza\u00e7\u00e3o do feito (fl. 416).\nAdemais, tramitam nessa unidade judici\u00e1ria milhares de processos e se for admitida a digitaliza\u00e7\u00e3o de todos os feitos finalizados, haver\u00e1 atraso injustificado nas atividades do cart\u00f3rio, pois \u00e9 necess\u00e1rio grande lapso temporal do servidor para este fim.\n2.\nDever\u00e1 o cart\u00f3rio promover a retifica\u00e7\u00e3o do advogado da Mafre Vida S/A no sistema SAJ, para futuras publica\u00e7\u00f5es e intima\u00e7\u00f5es, conforme declinado \u00e0 fl. 416.\nIntimem-se.\nAp\u00f3s, arquive-se."}]
كانت الفكرة هي تصور النص بفواصل أسطر عند عرضه أثناء عملية التعليق التوضيحي ، ولكن ما حصلنا عليه بدلاً من ذلك هو أن Doccano كان يحول كل عبارة في النص بمفرده. للمقارنة ، تم تحميل هذا النص نفسه على النحو التالي:
كما تظهر الصورة ، كان النص مقطوعًا في كل فاصل أسطر ، وتم التعامل مع كل سلسلة فرعية كمستند بمفرده.
لا ندعم النص يتضمن فواصل الأسطر. يرجى الرجوع إلى المناقشة في # 34.
تمكنت من حلها عبر ملف jsonl. تم حفظ البيانات التي عرضتها سابقًا على النحو التالي:
{"text": "Processo 0000637-15.2012.8.12.0003 (003.12.000637-8) - Procedimento Comum - Inadimplemento Reqte: Fabiano Neves Gonçalves ADV: PAULO DE TARSO AZEVEDO PEGOLO (OAB 10789/MS) ADV: HENRIQUE LIMA (OAB 9979/MS) ADV: GUILHERME FERREIRA DE BRITO (OAB 9982/MS) ADV: RODRIGO LOUREIRO (OAB 13583/MS) ADV: FRANCIELLI SANCHEZ SALAZAR (OAB 15140/MS) ADV: JACÓ CARLOS SILVA COELHO (OAB 15155A/MS) ADV: IVONE CONCEIÇÃO SILVA (OAB 13609/MS) 1.\n\nCom o trânsito em julgado da sentença de fl. 393 e satisfação integral do crédito, o ofício jurisdicional acha-se cumprido e acabado, razão por que indefiro o pedido de digitalização do feito (fl. 416).\n\nAdemais, tramitam nessa unidade judiciária milhares de processos e se for admitida a digitalização de todos os feitos finalizados, haverá atraso injustificado nas atividades do cartório, pois é necessário grande lapso temporal do servidor para este fim.\n\n2.\n\nDeverá o cartório promover a retificação do advogado da Mafre Vida S/A no sistema SAJ, para futuras publicações e intimações, conforme declinado à fl. 416.\n\nIntimem-se.\n\nApós, arquive-se.", "labels": []}
حفظ كل مستند في سطر واحد ، مع "\ n" لكل فاصل أسطر. لا يظهر في قسم "مجموعة البيانات":
عند التعليق على الأمثلة ، يتم عرض فواصل الأسطر بنجاح:
يعمل نفس الأسلوب عند التعامل مع تنسيق csv ، ولكنه يتطلب للأسف تسمية واحدة على الأقل ، ولا يسمح باستخدامه كمصفوفة فارغة. نظرًا لأنني لا أرغب في إرسال أي قيمة تسمية ، فقد اضطررت إلى استخدام تنسيق jsonl ، حيث يبدو أنه الوحيد الذي يسمح بمصفوفة تسمية فارغة. يتوقع تنسيق txt / النص العادي مثالًا واحدًا لكل سطر ، حيث لا يكون قادرًا على دعم فواصل الأسطر على الإطلاق.
أقوم بنسخ المثال الخاص بك ، وحفظه في ملف a.txt ، ولكنه لا يعمل ، ولا يزال يتعذر عليه عرض فواصل الأسطر.
نوع مشروعي هو وضع العلامات على التسلسل.
التعليق الأكثر فائدة
تمكنت من حلها عبر ملف jsonl. تم حفظ البيانات التي عرضتها سابقًا على النحو التالي:
{"text": "Processo 0000637-15.2012.8.12.0003 (003.12.000637-8) - Procedimento Comum - Inadimplemento Reqte: Fabiano Neves Gonçalves ADV: PAULO DE TARSO AZEVEDO PEGOLO (OAB 10789/MS) ADV: HENRIQUE LIMA (OAB 9979/MS) ADV: GUILHERME FERREIRA DE BRITO (OAB 9982/MS) ADV: RODRIGO LOUREIRO (OAB 13583/MS) ADV: FRANCIELLI SANCHEZ SALAZAR (OAB 15140/MS) ADV: JACÓ CARLOS SILVA COELHO (OAB 15155A/MS) ADV: IVONE CONCEIÇÃO SILVA (OAB 13609/MS) 1.\n\nCom o trânsito em julgado da sentença de fl. 393 e satisfação integral do crédito, o ofício jurisdicional acha-se cumprido e acabado, razão por que indefiro o pedido de digitalização do feito (fl. 416).\n\nAdemais, tramitam nessa unidade judiciária milhares de processos e se for admitida a digitalização de todos os feitos finalizados, haverá atraso injustificado nas atividades do cartório, pois é necessário grande lapso temporal do servidor para este fim.\n\n2.\n\nDeverá o cartório promover a retificação do advogado da Mafre Vida S/A no sistema SAJ, para futuras publicações e intimações, conforme declinado à fl. 416.\n\nIntimem-se.\n\nApós, arquive-se.", "labels": []}
حفظ كل مستند في سطر واحد ، مع "\ n" لكل فاصل أسطر. لا يظهر في قسم "مجموعة البيانات":
عند التعليق على الأمثلة ، يتم عرض فواصل الأسطر بنجاح:
يعمل نفس الأسلوب عند التعامل مع تنسيق csv ، ولكنه يتطلب للأسف تسمية واحدة على الأقل ، ولا يسمح باستخدامه كمصفوفة فارغة. نظرًا لأنني لا أرغب في إرسال أي قيمة تسمية ، فقد اضطررت إلى استخدام تنسيق jsonl ، حيث يبدو أنه الوحيد الذي يسمح بمصفوفة تسمية فارغة. يتوقع تنسيق txt / النص العادي مثالًا واحدًا لكل سطر ، حيث لا يكون قادرًا على دعم فواصل الأسطر على الإطلاق.