Doccano: テキスト内に改行があるファイルをアップロードできません

作成日 2019年08月12日  ·  3コメント  ·  ソース: doccano/doccano

システムインフォメーション

  • OSプラットフォームとディストリビューション(例:Linux Ubuntu 16.04)
    ウィンドウズ10
  • Pythonバージョン
    3.6.4

問題を説明する

テキストが1行ではないファイルをアップロードしようとしていますが、テキスト内に改行が含まれている可能性があります。 JSONファイル形式を使用してすべてのテキストを行ではなくプロパティとして区切る場合でも、ファイルをアップロードすると、Doccanoは改行で区切るように見えます。

ソースコード/ログ

たとえば、これは私がアップロードしようとしているJSONファイルであり、その中に単一のテキストが含まれています。

[{"text": "Processo 0000637-15.2012.8.12.0003 (003.12.000637-8) - Procedimento Comum - Inadimplemento Reqte: Fabiano Neves Gon\u00e7alves ADV: PAULO DE TARSO AZEVEDO PEGOLO (OAB 10789/MS) ADV: HENRIQUE LIMA (OAB 9979/MS) ADV: GUILHERME FERREIRA DE BRITO (OAB 9982/MS) ADV: RODRIGO LOUREIRO (OAB 13583/MS) ADV: FRANCIELLI SANCHEZ SALAZAR (OAB 15140/MS) ADV: JAC\u00d3 CARLOS SILVA COELHO (OAB 15155A/MS) ADV: IVONE CONCEI\u00c7\u00c3O SILVA (OAB 13609/MS) 1.\nCom o tr\u00e2nsito em julgado da senten\u00e7a de fl. 393 e satisfa\u00e7\u00e3o integral do cr\u00e9dito, o of\u00edcio jurisdicional acha-se cumprido e acabado, raz\u00e3o por que indefiro o pedido de digitaliza\u00e7\u00e3o do feito (fl. 416).\nAdemais, tramitam nessa unidade judici\u00e1ria milhares de processos e se for admitida a digitaliza\u00e7\u00e3o de todos os feitos finalizados, haver\u00e1 atraso injustificado nas atividades do cart\u00f3rio, pois \u00e9 necess\u00e1rio grande lapso temporal do servidor para este fim.\n2.\nDever\u00e1 o cart\u00f3rio promover a retifica\u00e7\u00e3o do advogado da Mafre Vida S/A no sistema SAJ, para futuras publica\u00e7\u00f5es e intima\u00e7\u00f5es, conforme declinado \u00e0 fl. 416.\nIntimem-se.\nAp\u00f3s, arquive-se."}]

注釈プロセス中にテキストを表示するときに改行を使用してテキストを視覚化するというアイデアでしたが、代わりに、Doccanoがテキスト内のすべてのフレーズを単独で変換していることがわかりました。 比較のために、これと同じテキストが次のようにアップロードされました。

image

画像が示すように、テキストはすべての改行で分割され、すべてのサブストリングはドキュメントとしてのみ扱われました。

question

最も参考になるコメント

私はなんとか.jsonlファイルを介してそれを解決することができました。 以前に表示したデータは次のように保存されました。

{"text": "Processo 0000637-15.2012.8.12.0003 (003.12.000637-8) - Procedimento Comum - Inadimplemento Reqte: Fabiano Neves Gonçalves ADV: PAULO DE TARSO AZEVEDO PEGOLO (OAB 10789/MS) ADV: HENRIQUE LIMA (OAB 9979/MS) ADV: GUILHERME FERREIRA DE BRITO (OAB 9982/MS) ADV: RODRIGO LOUREIRO (OAB 13583/MS) ADV: FRANCIELLI SANCHEZ SALAZAR (OAB 15140/MS) ADV: JACÓ CARLOS SILVA COELHO (OAB 15155A/MS) ADV: IVONE CONCEIÇÃO SILVA (OAB 13609/MS) 1.\n\nCom o trânsito em julgado da sentença de fl. 393 e satisfação integral do crédito, o ofício jurisdicional acha-se cumprido e acabado, razão por que indefiro o pedido de digitalização do feito (fl. 416).\n\nAdemais, tramitam nessa unidade judiciária milhares de processos e se for admitida a digitalização de todos os feitos finalizados, haverá atraso injustificado nas atividades do cartório, pois é necessário grande lapso temporal do servidor para este fim.\n\n2.\n\nDeverá o cartório promover a retificação do advogado da Mafre Vida S/A no sistema SAJ, para futuras publicações e intimações, conforme declinado à fl. 416.\n\nIntimem-se.\n\nApós, arquive-se.", "labels": []}

すべてのドキュメントを1行で保存し、改行ごとに「\ n」を付けました。 「データセット」セクションには表示されません。

image

例に注釈を付けると、改行は正常にレンダリングされます。

image

csv形式を処理する場合も同じアプローチが機能しますが、残念ながら、少なくとも1つのラベルが必要であり、空の配列として使用することはできません。 ラベル値を送信したくないので、空のラベル配列を許可するのはjsonl形式だけのようであるため、jsonl形式を使用する必要がありました。 txt / plainテキスト形式では、1行に1つの例が必要であり、改行をまったくサポートできません。

全てのコメント3件

改行を含むテキストはサポートされていません。 #34の議論を参照してください。

私はなんとか.jsonlファイルを介してそれを解決することができました。 以前に表示したデータは次のように保存されました。

{"text": "Processo 0000637-15.2012.8.12.0003 (003.12.000637-8) - Procedimento Comum - Inadimplemento Reqte: Fabiano Neves Gonçalves ADV: PAULO DE TARSO AZEVEDO PEGOLO (OAB 10789/MS) ADV: HENRIQUE LIMA (OAB 9979/MS) ADV: GUILHERME FERREIRA DE BRITO (OAB 9982/MS) ADV: RODRIGO LOUREIRO (OAB 13583/MS) ADV: FRANCIELLI SANCHEZ SALAZAR (OAB 15140/MS) ADV: JACÓ CARLOS SILVA COELHO (OAB 15155A/MS) ADV: IVONE CONCEIÇÃO SILVA (OAB 13609/MS) 1.\n\nCom o trânsito em julgado da sentença de fl. 393 e satisfação integral do crédito, o ofício jurisdicional acha-se cumprido e acabado, razão por que indefiro o pedido de digitalização do feito (fl. 416).\n\nAdemais, tramitam nessa unidade judiciária milhares de processos e se for admitida a digitalização de todos os feitos finalizados, haverá atraso injustificado nas atividades do cartório, pois é necessário grande lapso temporal do servidor para este fim.\n\n2.\n\nDeverá o cartório promover a retificação do advogado da Mafre Vida S/A no sistema SAJ, para futuras publicações e intimações, conforme declinado à fl. 416.\n\nIntimem-se.\n\nApós, arquive-se.", "labels": []}

すべてのドキュメントを1行で保存し、改行ごとに「\ n」を付けました。 「データセット」セクションには表示されません。

image

例に注釈を付けると、改行は正常にレンダリングされます。

image

csv形式を処理する場合も同じアプローチが機能しますが、残念ながら、少なくとも1つのラベルが必要であり、空の配列として使用することはできません。 ラベル値を送信したくないので、空のラベル配列を許可するのはjsonl形式だけのようであるため、jsonl形式を使用する必要がありました。 txt / plainテキスト形式では、1行に1つの例が必要であり、改行をまったくサポートできません。

あなたの例をコピーしてa.txtに保存しますが、機能しません。それでも改行をレンダリングできません。

私のプロジェクトタイプはシーケンスラベリングです。

このページは役に立ちましたか?
0 / 5 - 0 評価