Nltk: word_tokenize는 문자를 대체합니다.

에 만든 2017년 02월 15일 · 5코멘트 · 출처: nltk/nltk

word_tokenize 함수를 사용하면 따옴표가 다른 따옴표로 바뀝니다.

예(독일어):

import nltk
sentence = "\"Ja.\"" # sentence[0] = "
tokens = nltk.word_tokenize(sentence) #tokens[0] = ``
print(tokens[0] == sentence[0]) # Prints false.

이것은 버그입니까 아니면 이 동작 뒤에 이유가 있습니까?

출처

mwess

👍1

가장 유용한 댓글

@mwess 몇 가지 확인 후 " 에서 ``로의 변환은 원래 penn treebank 단어 토크나이저 의 인공물입니다.

큰따옴표가 있는 경우에만 발생하며 대체를 수행하는 정규식 규칙은 https://github.com/nltk/nltk/blob/develop/nltk/tokenize/treebank.py#L49입니다.

그리고 작은따옴표의 경우, treebank 토크나이저 STARTING_QUOTES 정규식은 방향성을 나타내지 않는다는 것을 알 수 있습니다. 나는 이것이 Penn Treebank 주석과 일관성을 유지한다고 생각합니다.

설명이 도움이 되기를 바랍니다.

alvations 에 2017년 05월 05일

👍2

모든 5 댓글

예, 예상되는 출력입니다. 큰따옴표 구두점은 여는 큰따옴표와 닫는 큰따옴표를 명시적으로 나타내도록 변경됩니다. 여는 " 는 2x 백틱으로 변환되고 2x 작은따옴표로 닫힙니다.

>>> from nltk import word_tokenize
>>> sent = '"this is a sentence inside double quotes."'
>>> word_tokenize(sent)
['``', 'this', 'is', 'a', 'sentence', 'inside', 'double', 'quotes', '.', "''"]
>>> word_tokenize(sent)[0]
'``'

>>> len(word_tokenize(sent)[0])
2
>>> word_tokenize(sent)[0] == '`'*2
True

>>> len(word_tokenize(sent)[-1])
2
>>> word_tokenize(sent)[-1] == "'" * 2
True

그래도 행동의 이유가 무엇인지 잘 모르겠습니다. 아마도 여는/닫는 따옴표를 식별할 때 명시적이어야 합니다.

alvations 에 2017년 02월 15일

설명 감사합니다.
그러나 큰따옴표를 하나(또는 두 개)의 작은따옴표나 역따옴표로 바꾸면 이 동작이 발생하지 않습니다.
그리고 토크나이저는 원본 텍스트의 일부를 전환하는 것이 문제를 일으킬 수 있고 실제로 투명하지 않기 때문에 조금 이상하다고 생각합니다.

나는 그것을 염두에 두어야 할 것 같지만 문자열의 원래 요소가 동일하게 유지되는 것을 선호합니다.

mwess 에 2017년 02월 21일

👍1

@mwess 몇 가지 확인 후 " 에서 ``로의 변환은 원래 penn treebank 단어 토크나이저 의 인공물입니다.

큰따옴표가 있는 경우에만 발생하며 대체를 수행하는 정규식 규칙은 https://github.com/nltk/nltk/blob/develop/nltk/tokenize/treebank.py#L49입니다.

설명이 도움이 되기를 바랍니다.

alvations 에 2017년 05월 05일

👍2

매우 감사합니다. 실제로 많은 도움이 됩니다.

mwess 에 2017년 05월 05일

많은 응용 프로그램에서 원본 텍스트를 변경하는 것은 권장되지 않습니다. word_tokenize 에 텍스트 변경을 끄는 플래그가 있었으면 합니다.

kovvalsky 에 2020년 04월 12일

이 페이지가 도움이 되었나요?

0 / 5 - 0 등급

Nltk: word_tokenize는 문자를 대체합니다.

가장 유용한 댓글

모든 5 댓글

관련 문제