Nltk: NLTK pour le vietnamien

Créé le 31 mai 2015 · 22Commentaires · Source: nltk/nltk

Nltk a-t-il pris en charge la langue vietnamienne ?

Au cas où ce ne serait pas le cas. Comment puis-je contribuer à ce que ntlk prenne en charge la langue vietnamienne ?

ce serait comme ça

>>> import nltk
>>> sentence = "Vào tám giờ thứ sáu, tôi cảm thấy không được khỏe."

>>> tokens = nltk.word_tokenize(sentence)
>>> tokens
['Vào', 'tám', "giờ", 'sáng', 'thứ sáu', 'tôi', 'cảm thấy', 'không', 'được', 'khỏe', '.']
>>> tagged = nltk.pos_tag(tokens)
>>> tagged[0:5]
[('Vào', 'IN'), ('tám', 'CD'), ("giờ", 'JJ'), ('sáng', 'NN'), ('thứ sáu', 'NNP'), ]

corpus enhancement inactive nice idea

Source

rain1024

Commentaire le plus utile

@u8621011 Content que vous ayez posé la question. Nos prochaines étapes dans underthesea intègrent plus de modules tels que la synthèse vocale, la traduction automatique et le chatbot (simple) pour le vietnamien et améliorent la vitesse et la précision dans les modules actuels (segmentation de mots, post-tagging, segmentation, reconnaissance d'entités nommées, classification de texte et analyse des sentiments) .

À propos du plan de portage dans nltk, je pense que nous pouvons écrire du code en python pur pour effectuer une tâche de segmentation de mots (peut-être avec cython pour accélérer les performances) pour le moment. Mon ami @trungtv et moi avons une demande de tirage acceptée dans Spacy il y a 2 mois.

rain1024 le 30 mai 2018

❤4 👍3

Tous les 22 commentaires

Salut @stevenbird ,
Qu'est-ce que tu penses ? Nous pouvons probablement les porter
http://jvntextpro.sourceforge.net/

longdt219 le 8 juin 2015

@rain1024 aimeriez -vous faire du portage ou contribuer à des wrappers pour les bibliothèques Java externes ?

stevenbird le 10 juin 2015

@stevenbird : oui. Je suis content de faire ça.

@longdt219 : pouvons-nous faire ça ensemble ?

rain1024 le 10 juin 2015

Oui bien sûr @rain1024

longdt219 le 10 juin 2015

salut @ longdt219

puis-je avoir votre email? Je vous contacterai pour plus d'informations :sourire:

rain1024 le 10 juin 2015

Salut @rain1024 ,
Je vous ai envoyé un e-mail, mais nous pouvons probablement discuter ici afin que d'autres puissent se joindre à la discussion.

longdt219 le 11 juin 2015

@rain1024 @longdt219 ,

Que diriez-vous de porter ce https://github.com/rockkhuya/DongDu comme première étape ? Qui est destiné à la segmentation de mots et écrit en C++ d'ailleurs.

Je ne connais pas C++ ou Java mais cet outil doit avoir les meilleures performances jusqu'à présent, selon http://xltiengviet.wikia.com/wiki/K%E1%BB%B7_l%E1%BB%A5c_t%C3%A1ch_t %E1%BB%AB

manhtai le 18 juin 2015

Salut, encore moi,

Après avoir cherché pendant un certain temps, j'ai découvert que la segmentation des mots en vietnamien est un problème très difficile, sans parler de l'étiquetage des points de vente.

J'ai eu une idée inspirée par https://github.com/mesnilgr/is13 pour utiliser l'apprentissage en profondeur pour apprendre les incorporations de mots, et je vais essayer de la mettre en œuvre. Certains intéressants peuvent venir, ou pas :smile_cat:

manhtai le 18 juin 2015

J'ai mis en place un réseau neuronal pour la segmentation des mots vietnamiens ici https://github.com/manhtai/vietseg. Regarde!

Ce n'est pas si bon pour l'instant. Mais au moins j'ai essayé, hein ? :le sourire:

manhtai le 23 juin 2015

Concernant les performances, ça a l'air correct cependant. Cependant, quelle est la ligne de base?
Quelles sont les dépendances ? utiliser network.py à partir de https://github.com/mnielsen/neural-networks-and-deep-learning n'est probablement pas un bon moyen pour la maintenance et les licences. L'idée est que nous ne voulons pas compter sur du code externe.
Utiliser Theano (basé sur Python) pour cela pourrait être une solution meilleure (et plus simple).

longdt219 le 23 juin 2015

Merci, je cherche une base de référence et je l'ajouterai bientôt.

Theano est peut-être mieux mais pas plus simple, network.py est un fichier indépendant avec moins de 300 lignes de code.

De toute façon, ce n'est qu'une implémentation rapide et sale. J'ai ajouté de futurs travaux au fichier README, et c'est pour travailler à l'avenir :smile_cat:

manhtai le 23 juin 2015

@ longdt219 @ rain1024 J'utilise jvntextpro2 depuis un certain temps et c'est plutôt correct. Il est écrit en Java et est également un projet open source. Nous pouvons également choisir de le porter.

letuananh le 14 sept. 2015

Résoudre le problème ;P

J'ai écrit un wrapper JVnTextPro il y a quelque temps, mais il n'est pas correctement documenté et le style de codage est obsolète, mais j'espère que cela vous aidera.

Ce serait formidable de voir aussi d'autres wrappers/ports d'annotateurs de langues asiatiques =)

alvations le 28 févr. 2016

@alvations : êtes-vous intéressé par le portage de JVnTextPro vers NLTK :P ?

letuananh le 29 févr. 2016

@letuananh après beaucoup de réflexion, oui. Une fois le nouveau tokenizer PTB fusionné, l'interface avec JVN serait quelque chose sur ma liste de tâches. Voulez-vous aider?

alvations le 5 mai 2017

:+1: Ce serait super de soutenir les vietnamiens

stevenbird le 25 mai 2017

wow... c'est un truc génial. J'adorerais avoir le soutien vietnamien!

toannguyenle le 4 juin 2017

@manhtai comptez-vous continuer sur votre projet. ça a l'air génial.

vietzerg le 27 juil. 2017

Revenir sur ce problème après la prochaine version mineure =)
Mais en attendant, jetez un œil à https://github.com/magizbox/underthesea

alvations le 6 sept. 2017

@rain1024 Qu'en est-il de votre plan de portage d'origine ? Je suis arrivé ici parce que j'ai porté une version python vnTokenizer et je planifie s'il est possible de le porter dans nltk. J'ai également vu votre bon travail continu d'underthesea et j'ai une question sur votre prochaine étape.

u8621011 le 30 mai 2018

@u8621011 underthesea n'est pas mon travail mais ils font du bon travail =)

Je ne sais pas combien de kilométrage nous pouvons obtenir si nous commençons le portage à partir de Jvntextpro . Mais je pense que je ne pourrai pas retenter le portage avant fin juillet.

Le support vietnamien est sûrement sur la liste des choses que j'aimerais personnellement voir et travailler dans NLTK.

alvations le 30 mai 2018