Nltk: NLTK pour le vietnamien

Créé le 31 mai 2015  ·  22Commentaires  ·  Source: nltk/nltk

Nltk a-t-il pris en charge la langue vietnamienne ?

Au cas où ce ne serait pas le cas. Comment puis-je contribuer à ce que ntlk prenne en charge la langue vietnamienne ?

ce serait comme ça

>>> import nltk
>>> sentence = "Vào tám giờ thứ sáu, tôi cảm thấy không được khỏe."

>>> tokens = nltk.word_tokenize(sentence)
>>> tokens
['Vào', 'tám', "giờ", 'sáng', 'thứ sáu', 'tôi', 'cảm thấy', 'không', 'được', 'khỏe', '.']
>>> tagged = nltk.pos_tag(tokens)
>>> tagged[0:5]
[('Vào', 'IN'), ('tám', 'CD'), ("giờ", 'JJ'), ('sáng', 'NN'), ('thứ sáu', 'NNP'), ]
corpus enhancement inactive nice idea

Commentaire le plus utile

@u8621011 Content que vous ayez posé la question. Nos prochaines étapes dans underthesea intègrent plus de modules tels que la synthèse vocale, la traduction automatique et le chatbot (simple) pour le vietnamien et améliorent la vitesse et la précision dans les modules actuels (segmentation de mots, post-tagging, segmentation, reconnaissance d'entités nommées, classification de texte et analyse des sentiments) .

À propos du plan de portage dans nltk, je pense que nous pouvons écrire du code en python pur pour effectuer une tâche de segmentation de mots (peut-être avec cython pour accélérer les performances) pour le moment. Mon ami @trungtv et moi avons une demande de tirage acceptée dans Spacy il y a 2 mois.

Tous les 22 commentaires

Salut @stevenbird ,
Qu'est-ce que tu penses ? Nous pouvons probablement les porter
http://jvntextpro.sourceforge.net/

@rain1024 aimeriez -vous faire du portage ou contribuer à des wrappers pour les bibliothèques Java externes ?

@stevenbird : oui. Je suis content de faire ça.

@longdt219 : pouvons-nous faire ça ensemble ?

Oui bien sûr @rain1024

salut @ longdt219

puis-je avoir votre email? Je vous contacterai pour plus d'informations :sourire:

Salut @rain1024 ,
Je vous ai envoyé un e-mail, mais nous pouvons probablement discuter ici afin que d'autres puissent se joindre à la discussion.

@rain1024 @longdt219 ,

Que diriez-vous de porter ce https://github.com/rockkhuya/DongDu comme première étape ? Qui est destiné à la segmentation de mots et écrit en C++ d'ailleurs.

Je ne connais pas C++ ou Java mais cet outil doit avoir les meilleures performances jusqu'à présent, selon http://xltiengviet.wikia.com/wiki/K%E1%BB%B7_l%E1%BB%A5c_t%C3%A1ch_t %E1%BB%AB

Salut, encore moi,

Après avoir cherché pendant un certain temps, j'ai découvert que la segmentation des mots en vietnamien est un problème très difficile, sans parler de l'étiquetage des points de vente.

J'ai eu une idée inspirée par https://github.com/mesnilgr/is13 pour utiliser l'apprentissage en profondeur pour apprendre les incorporations de mots, et je vais essayer de la mettre en œuvre. Certains intéressants peuvent venir, ou pas :smile_cat:

J'ai mis en place un réseau neuronal pour la segmentation des mots vietnamiens ici https://github.com/manhtai/vietseg. Regarde!

Ce n'est pas si bon pour l'instant. Mais au moins j'ai essayé, hein ? :le sourire:

Concernant les performances, ça a l'air correct cependant. Cependant, quelle est la ligne de base?
Quelles sont les dépendances ? utiliser network.py à partir de https://github.com/mnielsen/neural-networks-and-deep-learning n'est probablement pas un bon moyen pour la maintenance et les licences. L'idée est que nous ne voulons pas compter sur du code externe.
Utiliser Theano (basé sur Python) pour cela pourrait être une solution meilleure (et plus simple).

Merci, je cherche une base de référence et je l'ajouterai bientôt.

Theano est peut-être mieux mais pas plus simple, network.py est un fichier indépendant avec moins de 300 lignes de code.

De toute façon, ce n'est qu'une implémentation rapide et sale. J'ai ajouté de futurs travaux au fichier README, et c'est pour travailler à l'avenir :smile_cat:

@ longdt219 @ rain1024 J'utilise jvntextpro2 depuis un certain temps et c'est plutôt correct. Il est écrit en Java et est également un projet open source. Nous pouvons également choisir de le porter.

Résoudre le problème ;P

J'ai écrit un wrapper JVnTextPro il y a quelque temps, mais il n'est pas correctement documenté et le style de codage est obsolète, mais j'espère que cela vous aidera.

Ce serait formidable de voir aussi d'autres wrappers/ports d'annotateurs de langues asiatiques =)

@alvations : êtes-vous intéressé par le portage de JVnTextPro vers NLTK :P ?

@letuananh après beaucoup de réflexion, oui. Une fois le nouveau tokenizer PTB fusionné, l'interface avec JVN serait quelque chose sur ma liste de tâches. Voulez-vous aider?

:+1: Ce serait super de soutenir les vietnamiens

wow... c'est un truc génial. J'adorerais avoir le soutien vietnamien!

@manhtai comptez-vous continuer sur votre projet. ça a l'air génial.

Revenir sur ce problème après la prochaine version mineure =)
Mais en attendant, jetez un œil à https://github.com/magizbox/underthesea

@rain1024 Qu'en est-il de votre plan de portage d'origine ? Je suis arrivé ici parce que j'ai porté une version python vnTokenizer et je planifie s'il est possible de le porter dans nltk. J'ai également vu votre bon travail continu d'underthesea et j'ai une question sur votre prochaine étape.

@u8621011 underthesea n'est pas mon travail mais ils font du bon travail =)

Je ne sais pas combien de kilométrage nous pouvons obtenir si nous commençons le portage à partir de Jvntextpro . Mais je pense que je ne pourrai pas retenter le portage avant fin juillet.

Le support vietnamien est sûrement sur la liste des choses que j'aimerais personnellement voir et travailler dans NLTK.

@u8621011 Content que vous ayez posé la question. Nos prochaines étapes dans underthesea intègrent plus de modules tels que la synthèse vocale, la traduction automatique et le chatbot (simple) pour le vietnamien et améliorent la vitesse et la précision dans les modules actuels (segmentation de mots, post-tagging, segmentation, reconnaissance d'entités nommées, classification de texte et analyse des sentiments) .

À propos du plan de portage dans nltk, je pense que nous pouvons écrire du code en python pur pour effectuer une tâche de segmentation de mots (peut-être avec cython pour accélérer les performances) pour le moment. Mon ami @trungtv et moi avons une demande de tirage acceptée dans Spacy il y a 2 mois.

Cette page vous a été utile?
0 / 5 - 0 notes