Doccano: 无法上传文本中带有换行符的文件

创建于 2019-08-12  ·  3评论  ·  资料来源: doccano/doccano

系统信息

  • 操作系统平台和发行版(例如,Linux Ubuntu 16.04)
    视窗 10
  • 蟒蛇版本
    3.6.4

描述问题

我正在尝试上传一个文件,其中文本不是一行,但它们内部可以有换行符。 即使使用 JSON 文件格式将每个文本分隔为属性而不是一行,当上传文件时,Doccano 似乎仍然通过换行符分隔。

源代码/日志

例如,这是我尝试上传的 JSON 文件,其中包含一个文本:

[{"text": "Processo 0000637-15.2012.8.12.0003 (003.12.000637-8) - Procedimento Comum - Inadimplemento Reqte: Fabiano Neves Gon\u00e7alves ADV: PAULO DE TARSO AZEVEDO PEGOLO (OAB 10789/MS) ADV: HENRIQUE LIMA (OAB 9979/MS) ADV: GUILHERME FERREIRA DE BRITO (OAB 9982/MS) ADV: RODRIGO LOUREIRO (OAB 13583/MS) ADV: FRANCIELLI SANCHEZ SALAZAR (OAB 15140/MS) ADV: JAC\u00d3 CARLOS SILVA COELHO (OAB 15155A/MS) ADV: IVONE CONCEI\u00c7\u00c3O SILVA (OAB 13609/MS) 1.\nCom o tr\u00e2nsito em julgado da senten\u00e7a de fl. 393 e satisfa\u00e7\u00e3o integral do cr\u00e9dito, o of\u00edcio jurisdicional acha-se cumprido e acabado, raz\u00e3o por que indefiro o pedido de digitaliza\u00e7\u00e3o do feito (fl. 416).\nAdemais, tramitam nessa unidade judici\u00e1ria milhares de processos e se for admitida a digitaliza\u00e7\u00e3o de todos os feitos finalizados, haver\u00e1 atraso injustificado nas atividades do cart\u00f3rio, pois \u00e9 necess\u00e1rio grande lapso temporal do servidor para este fim.\n2.\nDever\u00e1 o cart\u00f3rio promover a retifica\u00e7\u00e3o do advogado da Mafre Vida S/A no sistema SAJ, para futuras publica\u00e7\u00f5es e intima\u00e7\u00f5es, conforme declinado \u00e0 fl. 416.\nIntimem-se.\nAp\u00f3s, arquive-se."}]

我们的想法是在注释过程中显示文本时用换行符将文本可视化,但我们得到的是 Doccano 自己转换文本中的每个短语。 为了比较,同样的文本被上传如下:

image

如图所示,文本在每个换行符处都被打断,每个子字符串都单独作为一个文档处理。

question

最有用的评论

我设法通过 .jsonl 文件解决了它。 我之前显示的数据保存如下:

{"text": "Processo 0000637-15.2012.8.12.0003 (003.12.000637-8) - Procedimento Comum - Inadimplemento Reqte: Fabiano Neves Gonçalves ADV: PAULO DE TARSO AZEVEDO PEGOLO (OAB 10789/MS) ADV: HENRIQUE LIMA (OAB 9979/MS) ADV: GUILHERME FERREIRA DE BRITO (OAB 9982/MS) ADV: RODRIGO LOUREIRO (OAB 13583/MS) ADV: FRANCIELLI SANCHEZ SALAZAR (OAB 15140/MS) ADV: JACÓ CARLOS SILVA COELHO (OAB 15155A/MS) ADV: IVONE CONCEIÇÃO SILVA (OAB 13609/MS) 1.\n\nCom o trânsito em julgado da sentença de fl. 393 e satisfação integral do crédito, o ofício jurisdicional acha-se cumprido e acabado, razão por que indefiro o pedido de digitalização do feito (fl. 416).\n\nAdemais, tramitam nessa unidade judiciária milhares de processos e se for admitida a digitalização de todos os feitos finalizados, haverá atraso injustificado nas atividades do cartório, pois é necessário grande lapso temporal do servidor para este fim.\n\n2.\n\nDeverá o cartório promover a retificação do advogado da Mafre Vida S/A no sistema SAJ, para futuras publicações e intimações, conforme declinado à fl. 416.\n\nIntimem-se.\n\nApós, arquive-se.", "labels": []}

将每个文档保存在一行中,每个换行符都有一个“\n”。 它不会出现在“数据集”部分:

image

注释示例时,换行符渲染成功:

image

同样的方法在处理 csv 格式时也有效,但不幸的是它至少需要一个标签,不允许将其用作空数组。 因为我不想发送任何标签值,所以我不得不使用 jsonl 格式,因为它似乎是唯一允许空标签数组的格式。 txt/纯文本格式要求每行一个示例,根本不支持换行。

所有3条评论

我们不支持文本包含换行符。 请参考 #34 中的讨论。

我设法通过 .jsonl 文件解决了它。 我之前显示的数据保存如下:

{"text": "Processo 0000637-15.2012.8.12.0003 (003.12.000637-8) - Procedimento Comum - Inadimplemento Reqte: Fabiano Neves Gonçalves ADV: PAULO DE TARSO AZEVEDO PEGOLO (OAB 10789/MS) ADV: HENRIQUE LIMA (OAB 9979/MS) ADV: GUILHERME FERREIRA DE BRITO (OAB 9982/MS) ADV: RODRIGO LOUREIRO (OAB 13583/MS) ADV: FRANCIELLI SANCHEZ SALAZAR (OAB 15140/MS) ADV: JACÓ CARLOS SILVA COELHO (OAB 15155A/MS) ADV: IVONE CONCEIÇÃO SILVA (OAB 13609/MS) 1.\n\nCom o trânsito em julgado da sentença de fl. 393 e satisfação integral do crédito, o ofício jurisdicional acha-se cumprido e acabado, razão por que indefiro o pedido de digitalização do feito (fl. 416).\n\nAdemais, tramitam nessa unidade judiciária milhares de processos e se for admitida a digitalização de todos os feitos finalizados, haverá atraso injustificado nas atividades do cartório, pois é necessário grande lapso temporal do servidor para este fim.\n\n2.\n\nDeverá o cartório promover a retificação do advogado da Mafre Vida S/A no sistema SAJ, para futuras publicações e intimações, conforme declinado à fl. 416.\n\nIntimem-se.\n\nApós, arquive-se.", "labels": []}

将每个文档保存在一行中,每个换行符都有一个“\n”。 它不会出现在“数据集”部分:

image

注释示例时,换行符渲染成功:

image

同样的方法在处理 csv 格式时也有效,但不幸的是它至少需要一个标签,不允许将其用作空数组。 因为我不想发送任何标签值,所以我不得不使用 jsonl 格式,因为它似乎是唯一允许空标签数组的格式。 txt/纯文本格式要求每行一个示例,根本不支持换行。

我复制了你的例子,并保存到 a.txt 中,但它不起作用,它仍然无法呈现换行符。

我的项目类型是序列标签。

此页面是否有帮助?
0 / 5 - 0 等级

相关问题

aribornstein picture aribornstein  ·  3评论

Srijha09 picture Srijha09  ·  4评论

atakanokan picture atakanokan  ·  4评论

JordanSimba picture JordanSimba  ·  4评论

dveselov picture dveselov  ·  4评论