Nltk: word_tokenize reemplaza caracteres

Creado en 15 feb. 2017 · 5Comentarios · Fuente: nltk/nltk

Cuando se usa la función word_tokenize, las comillas se reemplazan por diferentes comillas.

Ejemplo (alemán):

import nltk
sentence = "\"Ja.\"" # sentence[0] = "
tokens = nltk.word_tokenize(sentence) #tokens[0] = ``
print(tokens[0] == sentence[0]) # Prints false.

¿Es esto un error o hay un razonamiento detrás de este comportamiento?

Fuente

mwess

👍1

Comentario más útil

@mwess Después de algunas comprobaciones, la conversión de " a `` es un artefacto del tokenizador de palabras original de penn treebank .

Solo sucede cuando hay comillas dobles, las reglas de expresiones regulares que hacen las sustituciones son https://github.com/nltk/nltk/blob/develop/nltk/tokenize/treebank.py#L49

Y en cuanto a las comillas simples, el tokenizador de treebank STARTING_QUOTES regexes vemos que no indica direccionalidad. Creo que esto se mantiene en consonancia con las anotaciones de Penn Treebank.

Espero que las aclaraciones ayuden.

alvations en 5 may. 2017

👍2

Todos 5 comentarios

Sí, esa es la salida esperada. La puntuación de las comillas dobles cambia para denotar explícitamente las comillas dobles de apertura y cierre. Los " apertura se convierten en 2x comillas inversas y el cierre en 2x comillas simples.

>>> from nltk import word_tokenize
>>> sent = '"this is a sentence inside double quotes."'
>>> word_tokenize(sent)
['``', 'this', 'is', 'a', 'sentence', 'inside', 'double', 'quotes', '.', "''"]
>>> word_tokenize(sent)[0]
'``'

>>> len(word_tokenize(sent)[0])
2
>>> word_tokenize(sent)[0] == '`'*2
True

>>> len(word_tokenize(sent)[-1])
2
>>> word_tokenize(sent)[-1] == "'" * 2
True

Sin embargo, no estoy seguro de cuál es la razón del comportamiento. Posiblemente, sea explícito al identificar las cotizaciones de apertura / cierre.

alvations en 15 feb. 2017

Gracias por la explicación.
Pero cuando reemplazo las comillas dobles con una (o dos) comillas simples o comillas inversas, este comportamiento no ocurre.
Y creo que es un poco extraño que el tokenizador cambie partes del texto original, ya que podría generar problemas y no es realmente transparente.

Supongo que tendré que tenerlo en cuenta, pero preferiría que los elementos originales de la cadena sigan siendo los mismos.

mwess en 21 feb. 2017

👍1

@mwess Después de algunas comprobaciones, la conversión de " a `` es un artefacto del tokenizador de palabras original de penn treebank .

Solo sucede cuando hay comillas dobles, las reglas de expresiones regulares que hacen las sustituciones son https://github.com/nltk/nltk/blob/develop/nltk/tokenize/treebank.py#L49

Espero que las aclaraciones ayuden.

alvations en 5 may. 2017

👍2

Muchísimas gracias. Realmente ayuda mucho.

mwess en 5 may. 2017

En muchas aplicaciones no se recomienda alterar el texto original. Ojalá el word_tokenize tuviera una bandera para desactivar la alteración del texto.

kovvalsky en 12 abr. 2020

¿Fue útil esta página

0 / 5 - 0 calificaciones

Temas relacionados

rutas en compat.py

stevenbird · 3Comentarios

Adopte la sintaxis abstracta de la clase base

stevenbird · 4Comentarios

Función para acceder al objeto Synset usando la tecla de sentido

alvations · 4Comentarios

El tokenizador de frases no se divide correctamente

jeryini · 5Comentarios

Parámetro de función mal escrito para MosesTokenizer: agressive_dash_splits

goodmami · 4Comentarios