Doccano: Не удается загрузить файл с разрывом строки внутри текста

Созданный на 12 авг. 2019  ·  3Комментарии  ·  Источник: doccano/doccano

Системная информация

  • Платформа ОС и распространение (например, Linux Ubuntu 16.04) :
    Windows 10
  • Версия Python :
    3.6.4

Опишите проблему

Я пытаюсь загрузить файл, в котором тексты не состоят из одной строки, но внутри могут быть разрывы строк. Даже при использовании формата файла JSON для разделения каждого текста как свойства вместо строки при загрузке файла кажется, что Doccano по-прежнему разделяется через разрыв строки.

Исходный код / ​​логи

Например, это файл JSON, который я пытаюсь загрузить с одним текстом внутри него:

[{"text": "Processo 0000637-15.2012.8.12.0003 (003.12.000637-8) - Procedimento Comum - Inadimplemento Reqte: Fabiano Neves Gon\u00e7alves ADV: PAULO DE TARSO AZEVEDO PEGOLO (OAB 10789/MS) ADV: HENRIQUE LIMA (OAB 9979/MS) ADV: GUILHERME FERREIRA DE BRITO (OAB 9982/MS) ADV: RODRIGO LOUREIRO (OAB 13583/MS) ADV: FRANCIELLI SANCHEZ SALAZAR (OAB 15140/MS) ADV: JAC\u00d3 CARLOS SILVA COELHO (OAB 15155A/MS) ADV: IVONE CONCEI\u00c7\u00c3O SILVA (OAB 13609/MS) 1.\nCom o tr\u00e2nsito em julgado da senten\u00e7a de fl. 393 e satisfa\u00e7\u00e3o integral do cr\u00e9dito, o of\u00edcio jurisdicional acha-se cumprido e acabado, raz\u00e3o por que indefiro o pedido de digitaliza\u00e7\u00e3o do feito (fl. 416).\nAdemais, tramitam nessa unidade judici\u00e1ria milhares de processos e se for admitida a digitaliza\u00e7\u00e3o de todos os feitos finalizados, haver\u00e1 atraso injustificado nas atividades do cart\u00f3rio, pois \u00e9 necess\u00e1rio grande lapso temporal do servidor para este fim.\n2.\nDever\u00e1 o cart\u00f3rio promover a retifica\u00e7\u00e3o do advogado da Mafre Vida S/A no sistema SAJ, para futuras publica\u00e7\u00f5es e intima\u00e7\u00f5es, conforme declinado \u00e0 fl. 416.\nIntimem-se.\nAp\u00f3s, arquive-se."}]

Идея заключалась в том, чтобы визуализировать текст с разрывами строки при его отображении в процессе аннотации, но вместо этого мы получили то, что Doccano трансформировал каждую фразу в тексте самостоятельно. Для сравнения, этот же текст был загружен следующим образом:

image

Как показано на изображении, текст разбивался на каждый разрыв строки, и каждая подстрока обрабатывалась как отдельный документ.

question

Самый полезный комментарий

Мне удалось решить эту проблему с помощью файла .jsonl. Данные, которые я ранее показал, были сохранены следующим образом:

{"text": "Processo 0000637-15.2012.8.12.0003 (003.12.000637-8) - Procedimento Comum - Inadimplemento Reqte: Fabiano Neves Gonçalves ADV: PAULO DE TARSO AZEVEDO PEGOLO (OAB 10789/MS) ADV: HENRIQUE LIMA (OAB 9979/MS) ADV: GUILHERME FERREIRA DE BRITO (OAB 9982/MS) ADV: RODRIGO LOUREIRO (OAB 13583/MS) ADV: FRANCIELLI SANCHEZ SALAZAR (OAB 15140/MS) ADV: JACÓ CARLOS SILVA COELHO (OAB 15155A/MS) ADV: IVONE CONCEIÇÃO SILVA (OAB 13609/MS) 1.\n\nCom o trânsito em julgado da sentença de fl. 393 e satisfação integral do crédito, o ofício jurisdicional acha-se cumprido e acabado, razão por que indefiro o pedido de digitalização do feito (fl. 416).\n\nAdemais, tramitam nessa unidade judiciária milhares de processos e se for admitida a digitalização de todos os feitos finalizados, haverá atraso injustificado nas atividades do cartório, pois é necessário grande lapso temporal do servidor para este fim.\n\n2.\n\nDeverá o cartório promover a retificação do advogado da Mafre Vida S/A no sistema SAJ, para futuras publicações e intimações, conforme declinado à fl. 416.\n\nIntimem-se.\n\nApós, arquive-se.", "labels": []}

Сохраняет каждый документ в одной строке с символом "\ n" для каждого разрыва строки. Его нет в разделе «Набор данных»:

image

При аннотировании примеров разрывы строк отображаются успешно:

image

Тот же подход работает при работе с форматом csv, но, к сожалению, для него требуется хотя бы одна метка, что не позволяет использовать ее как пустой массив. Поскольку я не хочу отправлять какое-либо значение метки, мне пришлось использовать формат jsonl, поскольку он, кажется, единственный, допускающий пустой массив меток. Формат txt / plain text ожидает по одному примеру на строку и вообще не может поддерживать разрывы строк.

Все 3 Комментарий

Мы не поддерживаем текст, включающий разрывы строк. Пожалуйста, обратитесь к обсуждению в # 34.

Мне удалось решить эту проблему с помощью файла .jsonl. Данные, которые я ранее показал, были сохранены следующим образом:

{"text": "Processo 0000637-15.2012.8.12.0003 (003.12.000637-8) - Procedimento Comum - Inadimplemento Reqte: Fabiano Neves Gonçalves ADV: PAULO DE TARSO AZEVEDO PEGOLO (OAB 10789/MS) ADV: HENRIQUE LIMA (OAB 9979/MS) ADV: GUILHERME FERREIRA DE BRITO (OAB 9982/MS) ADV: RODRIGO LOUREIRO (OAB 13583/MS) ADV: FRANCIELLI SANCHEZ SALAZAR (OAB 15140/MS) ADV: JACÓ CARLOS SILVA COELHO (OAB 15155A/MS) ADV: IVONE CONCEIÇÃO SILVA (OAB 13609/MS) 1.\n\nCom o trânsito em julgado da sentença de fl. 393 e satisfação integral do crédito, o ofício jurisdicional acha-se cumprido e acabado, razão por que indefiro o pedido de digitalização do feito (fl. 416).\n\nAdemais, tramitam nessa unidade judiciária milhares de processos e se for admitida a digitalização de todos os feitos finalizados, haverá atraso injustificado nas atividades do cartório, pois é necessário grande lapso temporal do servidor para este fim.\n\n2.\n\nDeverá o cartório promover a retificação do advogado da Mafre Vida S/A no sistema SAJ, para futuras publicações e intimações, conforme declinado à fl. 416.\n\nIntimem-se.\n\nApós, arquive-se.", "labels": []}

Сохраняет каждый документ в одной строке с символом "\ n" для каждого разрыва строки. Его нет в разделе «Набор данных»:

image

При аннотировании примеров разрывы строк отображаются успешно:

image

Тот же подход работает при работе с форматом csv, но, к сожалению, для него требуется хотя бы одна метка, что не позволяет использовать ее как пустой массив. Поскольку я не хочу отправлять какое-либо значение метки, мне пришлось использовать формат jsonl, поскольку он, кажется, единственный, допускающий пустой массив меток. Формат txt / plain text ожидает по одному примеру на строку и вообще не может поддерживать разрывы строк.

Я копирую ваш пример и сохраняю в a.txt, но он не работает, он все еще не может отображать разрывы строк.

Мой тип проекта - маркировка последовательностей.

Была ли эта страница полезной?
0 / 5 - 0 рейтинги