Nltk: Ошибка span_tokenize, если предложение содержит двойные кавычки

Созданный на 12 июн. 2017 · 14Комментарии · Источник: nltk/nltk

Если мы введем предложение с двойными кавычками в функцию span_tokenize TreebankWordTokenizer, возникнут ошибки. Вероятно, это связано с тем, что функция отправляет необработанную строку ввода вместе с токенизированной строкой в функцию align_tokens, не учитывая, что функция tokenize заменит двойные кавычки на что-то еще.

bug pleaseverify

Источник

albertauyeung

👍2

Самый полезный комментарий

Обратите внимание, что это исправление по-прежнему вызывает исключение для текста с обоими типами кавычек:
nltk.TreebankWordTokenizer (). span_tokenize ('"` `')

alyaxey 11 авг. 2017

👍2

Все 14 Комментарий

Спасибо @albertauyeung за сообщение о проблеме. У вас есть пример, когда вы встретили ошибку с TreebankWordTokenizer.span_tokenize() ?

Вы имеете в виду что-то подобное?

>>> from nltk.tokenize.treebank import TreebankWordTokenizer
>>> tbw = TreebankWordTokenizer
>>> tbw = TreebankWordTokenizer()
>>> s = '''This is a sentence with "quotes inside" and alsom some 'single quotes', etc.'''
>>> print(s)
This is a sentence with "quotes inside" and alsom some 'single quotes', etc.
>>> tbw.span_tokenize(s)
Traceback (most recent call last):
  File "/usr/local/lib/python3.5/site-packages/nltk/tokenize/util.py", line 230, in align_tokens
    start = sentence.index(token, point)
ValueError: substring not found

During handling of the above exception, another exception occurred:

Traceback (most recent call last):
  File "<stdin>", line 1, in <module>
  File "/usr/local/lib/python3.5/site-packages/nltk/tokenize/treebank.py", line 167, in span_tokenize
    return align_tokens(tokens, text)
  File "/usr/local/lib/python3.5/site-packages/nltk/tokenize/util.py", line 232, in align_tokens
    raise ValueError('substring "{}" not found in "{}"'.format(token, sentence))
ValueError: substring "``" not found in "This is a sentence with "quotes inside" and alsom some 'single quotes', etc."

Неоптимальное решение :

>>> s = '''This is a sentence with `` quotes inside '' and alsom some 'single quotes', etc.''' 
>>> tbw.span_tokenize(s)
[(0, 4), (5, 7), (8, 9), (10, 18), (19, 23), (24, 26), (27, 33), (34, 40), (41, 43), (44, 47), (48, 53), (54, 58), (59, 66), (67, 73), (73, 74), (74, 75), (76, 79), (79, 80)]

alvations 12 июн. 2017

@alvations Да. Это точная ошибка, которую я получил. Прямо сейчас кажется, что мы должны предварительно обработать предложение перед отправкой в span_tokenize.

albertauyeung 12 июн. 2017

Простым решением было бы заменить кавычки перед вызовом функции nltk.tokenize.util.align_tokens на https://github.com/nltk/nltk/blob/develop/nltk/tokenize/treebank.py#L147

    def span_tokenize(self, text):
        tokens = self.tokenize(text)
        tokens = ['"' if tok in ['``', "''"] else tok for tok in tokens]
        return align_tokens(tokens, text)

После патча:

>>> from nltk.tokenize.treebank import TreebankWordTokenizer
>>> tbw = TreebankWordTokenizer()
>>> s = '''This is a sentence with "quotes inside" and alsom some 'single quotes', etc.'''
>>> print(s)
This is a sentence with "quotes inside" and alsom some 'single quotes', etc.
>>> tbw.span_tokenize(s)
[(0, 4), (5, 7), (8, 9), (10, 18), (19, 23), (24, 25), (25, 31), (32, 38), (38, 39), (40, 43), (44, 49), (50, 54), (55, 62), (63, 69), (69, 70), (70, 71), (72, 75), (75, 76)]

@albertauyeung , хотите ли вы

alvations 12 июн. 2017

@alvations Да, конечно. Сделаю!

albertauyeung 12 июн. 2017

👍1

Исправлено на # 1751

alvations 14 июн. 2017

alyaxey 11 авг. 2017

👍2

Привет, @alyaxey , какое исключение ты видишь?

Я выполнил nltk.TreebankWordTokenizer().span_tokenize('" ``') и получил следующее:
[(0, 1), (2, 4)]

albertauyeung 12 авг. 2017

Извините, я предоставил неверный тестовый пример. Пожалуйста, взгляните на это:

import nltk
print(nltk.TreebankWordTokenizer().span_tokenize('``` "'))

Ожидаемый результат будет [(0, 2), (2, 3), (4, 5)] если мы будем следовать логике текущего метода токенизации. Также допустима [(0, 3), (4, 5)] .
Вот мой результат для ветки разработчика:

Traceback (most recent call last):
  File "/Users/alyaxey/Downloads/nltk-develop/nltk/tokenize/util.py", line 254, in align_tokens
    start = sentence.index(token, point)
ValueError: substring not found

During handling of the above exception, another exception occurred:

Traceback (most recent call last):
  File "test.py", line 2, in <module>
    print(nltk.TreebankWordTokenizer().span_tokenize('``` "'))
  File "/Users/alyaxey/Downloads/nltk-develop/nltk/tokenize/treebank.py", line 179, in span_tokenize
    return align_tokens(tokens, text)
  File "/Users/alyaxey/Downloads/nltk-develop/nltk/tokenize/util.py", line 256, in align_tokens
    raise ValueError('substring "{}" not found in "{}"'.format(token, sentence))
ValueError: substring "`" not found in "``` ""

Я хотел бы предложить другое решение: 1) исправить эту и подобные ошибки, 2) обеспечить большую гибкость для пользователей, 3) сделать код более понятным. Мы можем добавить логический параметр к методу tokenize который включает или отключает преобразование кавычек. Мы можем отключить преобразование кавычек во время span_tokenize, чтобы избежать каких-либо манипуляций, не связанных с пробелами.

alyaxey 13 авг. 2017

Я столкнулся с исключением в текущей версии span_tokenize для строк, которые содержат скобки перед кавычками. Я считаю, что регулярное выражение неверно, поскольку оно также соответствует скобкам и позже заменяет кавычки в "raw_tokens" этими скобками. Или я что-то упускаю?

Пример:

s = ' ( see 6)  Biotin " " affinity'
w_spans = TreebankWordTokenizer().span_tokenize(s)

Исключение:

...
  File "/home/mp/miniconda3/envs/py36/lib/python3.6/site-packages/nltk/tokenize/treebank.py", line 179, in span_tokenize
    return align_tokens(tokens, text)
  File "/home/mp/miniconda3/envs/py36/lib/python3.6/site-packages/nltk/tokenize/util.py", line 256, in align_tokens
    raise ValueError('substring "{}" not found in "{}"'.format(token, sentence))
ValueError: substring "(" not found in " ( see 6)  Biotin " " affinity"

Предлагаемое исправление:
Измените регулярное выражение в span_tokenize с r'[(``)(\'\')(")]+' на r'(``)|(\'\')|(")'

tholor 23 мая 2018

Хорошо, моя проблема, это на самом деле уже было исправлено в фиксации 4b21300999e11ba6f91952c05a936ccec0673e2e и работает как шарм в nltk-3.3

tholor 23 мая 2018

о, это все еще проблема в nltk-3.3

как это:

File "/home/users/----/.miniconda2/lib/python2.7/site-packages/nltk/tokenize/util.py", line 258, in align_tokens
    raise ValueError('substring "{}" not found in "{}"'.format(token, sentence))
ValueError: substring "''" not found in "''Elton's been through a lot," he told The Sun newspaper."

fseasy 23 окт. 2018

@memeda Подтверждаю, что могу воспроизвести эту ошибку. Решение состоит в том, чтобы добавить еще одно регулярное выражение для соответствия одинарным кавычкам в начале строки. Пожалуйста, посмотрите мою ветку на https://github.com/albertauyeung/nltk/tree/hotfix-span-tokenizer

albertauyeung 24 окт. 2018

Подтвержденный:

raise ValueError('substring "{}" not found in "{}"'.format(token, sentence))

ValueError: substring "enriched" not found in "The Hindu describing his Cricket, once said: `` His batting resembles very closely that of his father -dashing and carefree -and his cover-drive, a joy to watch, has amazing impetus...''And it added that he had ``enriched Madras sport as his father had''."

zzj0402 14 апр. 2020

👍1

Привет, я тоже столкнулся с этой ошибкой, например, со следующим текстом:

''Cosita Linda' - Lisandro (2013)\n\"El Clon (2010) .... Mohammed

Полученная ошибка выглядит следующим образом:

ValueError: substring "''" not found in "''Cosita Linda' - Lisandro (2013)
"El Clon (2010) .... Mohammed"

Есть ли обновления по этой проблеме?

wadimiusz 28 янв. 2021

Была ли эта страница полезной?

0 / 5 - 0 рейтинги

Смежные вопросы

nltk.translate.bleu_score дает ложный результат, когда ngram больше, чем максимальное ngrams данного предложения

StarWang · 5Комментарии

Прекращение поддержки старого парсера Stanford

alvations · 4Комментарии

«IndexError: индекс строки вне допустимого диапазона» при попытке остановить слово «oing»

peterbe · 5Комментарии

chomsky_normal_form () для грамматик

DavidNemeskey · 4Комментарии

Функция доступа к объекту Synset с помощью сенсорной клавиши

alvations · 4Комментарии