Nltk: Корпус Verbnet устарел

Созданный на 5 мая 2018  ·  13Комментарии  ·  Источник: nltk/nltk

Индекс данных nltk (https://raw.githubusercontent.com/nltk/nltk_data/gh-pages/index.xml) указывает verbnet на версию 2.1. Последнее определение verbnet - 3.2.

В последней версии обновлены описания фреймов, которые предоставляют гораздо больше информации о фразовой структуре. Например, основное описание фрейма из класса future_having-13.3 в последней версии - NP V NP-Dative NP , описывающее структуру фрейма как (существительное-фраза, глагол, существительное-фраза (дательный падеж), существительное- фраза), а в версии 2.1 - просто Dative .

bug corpus enhancement nltk_data

Самый полезный комментарий

@alvations
Он действительно работает для того, для чего я его использую. Позвольте мне показать вам свой код:

import nltk
v3 = nltk.corpus.util.LazyCorpusLoader(
    'verbnet3', nltk.corpus.reader.verbnet.VerbnetCorpusReader,
    r'(?!\.).*\.xml')
v3.classids('add') # returns ['mix-22.1-2', 'multiply-108', 'say-37.7-1']

Для этого вам нужно скачать verbnet3 отсюда . Разархивируйте этот файл в папку ~/nltk_data/corpora~. When unzipped it should create a new folder ~ / nltk_data / corpora / verbnet3 which contains all the Verbnet3 definitions. Then you should be able to run the code above. Notice that for Verbnet 2 (the default) the code v3.classids ('add') `возвращает только первый класс (mix-22.1-2).

Поскольку это в основном все, что я использую Verbnet3, я не тестировал другие API, но метод classids был протестирован на многих разных словах, и все они работают. Надеюсь, это поможет!

Все 13 Комментарий

@agodbehere , спасибо, что сообщили об этой проблеме. Я проверил, что существующий читатель корпуса verbnet 2 не работает с данными verbnet 3, поэтому оба должны будут жить рядом друг с другом в коллекции корпуса.

Следующим шагом является добавление соответствующего читателя корпуса nltk.corpus.verbnet3 , который, как мы надеемся, может совместно использовать часть существующего кода.

Некоторое время нам нужно будет поддерживать обоих.

@stevenbird , какой

Проблема существует с вербнетом 3. Нам нужен другой читатель корпуса для
это.

В среду, 16 мая 2018 г., 10:45, Эндрю Годбе, здесь [email protected]
написал:

@stevenbird https://github.com/stevenbird , в чем дело?
найти для использования существующего читателя корпуса с verbnet 2? Я не запускал
набор тестов после обновления корпуса, но для моего варианта использования (запрос
classids и frames) существующий считыватель корпуса работает нормально.

-
Вы получаете это, потому что вас упомянули.
Ответьте на это письмо напрямую, просмотрите его на GitHub
https://github.com/nltk/nltk/issues/2015#issuecomment-389363521 или отключить звук
нить
https://github.com/notifications/unsubscribe-auth/AADYbsgbjtFTKsyamRPG0OpJuWnF3UJ0ks5ty33DgaJpZM4Tzc0d
.

@stevenbird @agodbehere Привет, я работаю над проектом VerbNet в CU Boulder и буду рад внести свой вклад и поддерживать код для корпуса читателя для VerbNet 3+.

@amosleokim : спасибо, это было бы хорошо!

Вы можете видеть , что мы имеем verbnet (2) и verbnet3 данных здесь .

Предлагаю добавить сюда запись для verbnet3

А затем подумайте , как расширить verbnet и verbnet3 .

Как это звучит? Нам нужно поддерживать обе версии одновременно и (в конечном итоге) отказаться от вербнета 2.

У нас есть резервный канал NLTK, где при необходимости мы можем обсудить детали. Спасибо!

@stevenbird Мне это

Есть ли прогресс по этой теме? Я пытаюсь использовать вербнет для исследования, и результат, который я получаю от методов classids кажется странным .

Спасибо @stevenbird , похоже, причиной проблемы была более старая версия. Мне удалось вручную загрузить verbnet3.zip и прочитать его с помощью программы чтения для verbnet 2.1, которая находится в nltk.

@salompas Я хочу еще раз проверить, работает ли verbnet API в NLTK с verbnet3?

@alvations
Он действительно работает для того, для чего я его использую. Позвольте мне показать вам свой код:

import nltk
v3 = nltk.corpus.util.LazyCorpusLoader(
    'verbnet3', nltk.corpus.reader.verbnet.VerbnetCorpusReader,
    r'(?!\.).*\.xml')
v3.classids('add') # returns ['mix-22.1-2', 'multiply-108', 'say-37.7-1']

Для этого вам нужно скачать verbnet3 отсюда . Разархивируйте этот файл в папку ~/nltk_data/corpora~. When unzipped it should create a new folder ~ / nltk_data / corpora / verbnet3 which contains all the Verbnet3 definitions. Then you should be able to run the code above. Notice that for Verbnet 2 (the default) the code v3.classids ('add') `возвращает только первый класс (mix-22.1-2).

Поскольку это в основном все, что я использую Verbnet3, я не тестировал другие API, но метод classids был протестирован на многих разных словах, и все они работают. Надеюсь, это поможет!

@Salompas Привет, спасибо за решение! Какая версия verbnet3 является вашим verbnet3? Это версия 3.3 или 3.2?

@Salompas Привет, спасибо за решение! Какая версия verbnet3 является вашим verbnet3? Это версия 3.3 или 3.2?

Привет @ songhee-kim, я работал над этим 2 года назад, поэтому я не знаю, какая именно версия у меня была.

Была ли эта страница полезной?
0 / 5 - 0 рейтинги