Nltk: Verbnet corpus est obsolète

Créé le 5 mai 2018  ·  13Commentaires  ·  Source: nltk/nltk

L'index de données nltk (https://raw.githubusercontent.com/nltk/nltk_data/gh-pages/index.xml) pointe verbnet vers la version 2.1. La dernière définition de verbnet est 3.2.

La dernière version a mis à jour les descriptions de trame qui fournissent beaucoup plus d'informations sur la structure des phrases. Par exemple, la description principale d'un cadre de la classe future_having-13.3 dans la dernière version est NP V NP-Dative NP , décrivant la structure du cadre comme (nom-phrase, verbe, nom-phrase (datif), nom- phrase) alors que dans la version 2.1, il lit simplement Dative .

bug corpus enhancement nltk_data

Commentaire le plus utile

@alvations
Cela fonctionne pour ce pour quoi je l'utilise. Laissez-moi vous montrer mon code:

import nltk
v3 = nltk.corpus.util.LazyCorpusLoader(
    'verbnet3', nltk.corpus.reader.verbnet.VerbnetCorpusReader,
    r'(?!\.).*\.xml')
v3.classids('add') # returns ['mix-22.1-2', 'multiply-108', 'say-37.7-1']

Pour que cela fonctionne, vous devez télécharger verbnet3 à partir d'ici . Décompressez ce fichier dans le dossier ~/nltk_data/corpora~. When unzipped it should create a new folder ~ / nltk_data / corpora / verbnet3 which contains all the Verbnet3 definitions. Then you should be able to run the code above. Notice that for Verbnet 2 (the default) the code v3.classids ('add') `ne renvoie que la première classe (mix-22.1-2).

Puisque c'est essentiellement tout ce que j'utilise Verbnet3 car je n'ai pas testé les autres API, mais la méthode classids a été testée sur plusieurs mots différents et ils fonctionnent tous. J'espère que ça aide!

Tous les 13 commentaires

@agodbehere , merci d'avoir signalé ce problème. J'ai vérifié que le lecteur de corpus verbnet 2 existant se brise sur les données verbnet 3, donc les deux devront vivre côte à côte dans la collection de corpus.

La prochaine étape est que quelqu'un contribue à un lecteur de corpus correspondant nltk.corpus.verbnet3 , qui peut, espérons-le, partager une partie du code existant.

Nous devrons prendre en charge les deux pendant un certain temps.

@stevenbird , quel cas de rupture avez-vous trouvé pour utiliser le lecteur de corpus existant avec verbnet 2? Je n'ai pas exécuté la suite de tests après la mise à jour du corpus, mais pour mon cas d'utilisation (demande de classids et de frames), le lecteur de corpus existant fonctionne très bien.

Le problème existe avec verbnet 3. Nous avons besoin d'un autre lecteur de corpus pour
cette.

Le mercredi 16 mai 2018 10 h 45 Andrew Godbehere [email protected]
a écrit:

@stevenbird https://github.com/stevenbird , quel cas de rupture avez-vous
trouver pour utiliser le lecteur de corpus existant avec verbnet 2? Je n'ai pas exécuté le
suite de tests après la mise à jour du corpus, mais pour mon cas d'utilisation (demander
classids et frames), le lecteur de corpus existant fonctionne très bien.

-
Vous recevez cela parce que vous avez été mentionné.
Répondez directement à cet e-mail, affichez-le sur GitHub
https://github.com/nltk/nltk/issues/2015#issuecomment-389363521 , ou muet
le fil
https://github.com/notifications/unsubscribe-auth/AADYbsgbjtFTKsyamRPG0OpJuWnF3UJ0ks5ty33DgaJpZM4Tzc0d
.

@stevenbird @agodbehere Bonjour, je travaille sur le projet VerbNet chez CU Boulder et je serais heureux de contribuer et de maintenir le code d'un lecteur de corpus pour VerbNet 3+.

@amosleokim : merci, ce serait le bienvenu!

Vous pouvez voir que nous avons verbnet (2) et verbnet3 données ici .

Je propose d'ajouter une entrée pour verbnet3 ici

Et puis découvrez comment étendre verbnet.py pour prendre en charge à la fois verbnet et verbnet3 .

Comment ça sonne? Nous devons prendre en charge à la fois simultanément et (finalement) déprécier verbnet 2.

Nous avons un canal libre NLTK où nous pouvons discuter des détails si nécessaire. Merci!

@stevenbird Cela me semble bien! Si vous pouvez m'envoyer un code d'invitation sur la chaîne Slack, je vais sauter dessus pour que nous puissions commencer sur le vif du sujet.

Des progrès sur ce sujet? J'essaie d'utiliser verbnet pour une recherche et le résultat que j'obtiens des méthodes classids semble bizarre .

Merci @stevenbird , l'ancienne version semblait être la cause du problème. J'ai pu télécharger manuellement verbnet3.zip et le lire avec le lecteur pour verbnet 2.1 qui se trouve dans nltk.

@salompas Je

@alvations
Cela fonctionne pour ce pour quoi je l'utilise. Laissez-moi vous montrer mon code:

import nltk
v3 = nltk.corpus.util.LazyCorpusLoader(
    'verbnet3', nltk.corpus.reader.verbnet.VerbnetCorpusReader,
    r'(?!\.).*\.xml')
v3.classids('add') # returns ['mix-22.1-2', 'multiply-108', 'say-37.7-1']

Pour que cela fonctionne, vous devez télécharger verbnet3 à partir d'ici . Décompressez ce fichier dans le dossier ~/nltk_data/corpora~. When unzipped it should create a new folder ~ / nltk_data / corpora / verbnet3 which contains all the Verbnet3 definitions. Then you should be able to run the code above. Notice that for Verbnet 2 (the default) the code v3.classids ('add') `ne renvoie que la première classe (mix-22.1-2).

Puisque c'est essentiellement tout ce que j'utilise Verbnet3 car je n'ai pas testé les autres API, mais la méthode classids a été testée sur plusieurs mots différents et ils fonctionnent tous. J'espère que ça aide!

@Salompas Bonjour, merci pour votre solution! Quelle version de verbnet3 est votre «verbnet3»? Est-ce la version 3.3 ou 3.2?

@Salompas Bonjour, merci pour votre solution! Quelle version de verbnet3 est votre «verbnet3»? Est-ce la version 3.3 ou 3.2?

Hey @ songhee-kim, ça fait 2 ans que je travaille là-dessus, donc je ne sais pas exactement quelle version j'avais.

Cette page vous a été utile?
0 / 5 - 0 notes