Nltk: NLTK für Vietnamesen

Erstellt am 31. Mai 2015 · 22Kommentare · Quelle: nltk/nltk

Hat nltk die vietnamesische Sprache unterstützt?

Falls nicht. Wie kann ich dazu beitragen, dass ntlk die vietnamesische Sprache unterstützt?

Es wäre so

>>> import nltk
>>> sentence = "Vào tám giờ thứ sáu, tôi cảm thấy không được khỏe."

>>> tokens = nltk.word_tokenize(sentence)
>>> tokens
['Vào', 'tám', "giờ", 'sáng', 'thứ sáu', 'tôi', 'cảm thấy', 'không', 'được', 'khỏe', '.']
>>> tagged = nltk.pos_tag(tokens)
>>> tagged[0:5]
[('Vào', 'IN'), ('tám', 'CD'), ("giờ", 'JJ'), ('sáng', 'NN'), ('thứ sáu', 'NNP'), ]

corpus enhancement inactive nice idea

Quelle

rain1024

Hilfreichster Kommentar

@ u8621011 Schön, dass Sie gefragt haben. Unsere nächsten Schritte in underthesea sind die Integration weiterer Module wie Sprachsynthese, maschinelle Übersetzung und (einfacher) Chatbot für Vietnamesisch und die Verbesserung der Geschwindigkeit und Genauigkeit in aktuellen Modulen (Wortsegmentierung, Pos-Tagging, Chunking, Named-Entity-Erkennung, Textklassifizierung und Stimmungsanalyse). .

Über den Portierungsplan in nltk denke ich, dass wir im Moment Code in reinem Python schreiben können, um Wortsegmentierungsaufgaben zu erledigen (vielleicht mit Cython, um die Leistung zu beschleunigen). Ich und mein Freund @trungtv haben vor 2 Monaten einen akzeptierten Pull-Request in spacy .

rain1024 am 30. Mai 2018

❤4 👍3

Alle 22 Kommentare

Hallo @stevenbird ,
Was denken Sie ? Wahrscheinlich können wir diese portieren
http://jvntextpro.sourceforge.net/

longdt219 am 8. Juni 2015

@rain1024 möchten Sie eine Portierung durchführen oder Wrapper für externe Java-Bibliotheken beitragen?

stevenbird am 10. Juni 2015

@stevenbird : ja. Ich bin froh, dies zu tun.

@longdt219 :

rain1024 am 10. Juni 2015

Ja sicher @rain1024

longdt219 am 10. Juni 2015

Hallo @longdt219

kann ich deine E-Mail-Adresse haben? Ich melde mich für weitere Informationen bei Ihnen :smile:

rain1024 am 10. Juni 2015

Hallo @rain1024 ,
Ich habe Ihnen eine E-Mail geschickt, aber wahrscheinlich können wir hier diskutieren, damit sich andere an der Diskussion beteiligen können.

longdt219 am 11. Juni 2015

@rain1024 @longdt219 ,

Wie wäre es, diese https://github.com/rockkhuya/DongDu als ersten Schritt zu portieren? Welches auf Wortsegmentierung abzielt und übrigens in C++ geschrieben ist.

Ich kenne C++ oder Java nicht, aber dieses Tool muss laut http://xltiengviet.wikia.com/wiki/K%E1%BB%B7_l%E1%BB%A5c_t%C3%A1ch_t die bisher beste Leistung haben

manhtai am 18. Juni 2015

Hallo, ich nochmal,

Nachdem ich eine Weile herumgesucht hatte, stellte ich fest, dass die Wortsegmentierung im Vietnamesischen ein wirklich schwieriges Problem ist, ganz zu schweigen vom POS-Tagging.

Ich hatte eine Idee, die von https://github.com/mesnilgr/is13 inspiriert wurde, um Deep Learning zum Erlernen von

manhtai am 18. Juni 2015

Ich habe hier https://github.com/manhtai/vietseg ein neuronales Netz für die vietnamesische Wortsegmentierung implementiert

Im Moment ist es nicht so gut. Aber ich habe es zumindest versucht, oder? :Lächeln:

manhtai am 23. Juni 2015

Von der Leistung her sieht es aber ok aus. Aber was ist die Grundlinie?
Was sind die Abhängigkeiten? Die Verwendung von network.py von https://github.com/mnielsen/neural-networks-and-deep-learning ist wahrscheinlich kein guter Weg in Bezug auf Wartung und Lizenzierung. Die Idee ist, dass wir uns nicht auf externen Code verlassen wollen.
Die Verwendung von Theano (Python-basiert) dafür könnte eine bessere (und einfachere) Lösung sein.

longdt219 am 23. Juni 2015

Danke, ich suche nach einer Baseline und werde sie bald hinzufügen.

Theano ist vielleicht besser, aber nicht einfacher, network.py ist eine unabhängige Datei mit weniger als 300 Zeilen Code.

Wie auch immer, es ist nur eine schnelle und schmutzige Implementierung. Ich habe der README-Datei zukünftige Werke hinzugefügt, und das ist für die zukünftige Arbeit :smile_cat:

manhtai am 23. Juni 2015

@longdt219 @rain1024 Ich benutze jvntextpro2 seit einiger Zeit und es ist ziemlich anständig. Es ist in Java geschrieben und auch ein Open-Source-Projekt. Wir können uns auch dafür entscheiden, dies zu portieren.

letuananh am 14. Sept. 2015

Auf das Problem stoßen ;P

Ich habe vor einiger Zeit einen JVnTextPro-Wrapper geschrieben, aber er ist nicht richtig dokumentiert und der Codierungsstil ist veraltet, aber ich hoffe, es hilft.

Wäre toll, auch andere asiatische Annotator-Wrapper/Ports zu sehen =)

alvations am 28. Feb. 2016

@alvations :

letuananh am 29. Feb. 2016

@letuanh nach

alvations am 5. Mai 2017

:+1: Es wäre toll, Vietnamesen zu unterstützen

stevenbird am 25. Mai 2017

wow... das ist ein tolles Zeug. Würde mich über vietnamesische Unterstützung freuen!

toannguyenle am 4. Juni 2017

@manhtai planen Sie, Ihr Projekt fortzusetzen

vietzerg am 27. Juli 2017

Kommen wir nach der nächsten Nebenversion auf dieses Problem zurück =)
Aber schau in der Zwischenzeit mal auf https://github.com/magizbox/underthesea

alvations am 6. Sept. 2017

@rain1024 Wie wäre es mit Ihrem ursprünglichen Portierungsplan? Ich bin hierher gekommen, weil ich eine Python-Version vnTokenizer portiert habe und plane, ob eine Portierung in nltk möglich ist. Ich habe auch Ihre durchweg gute Arbeit von underthesea gesehen und habe eine Frage zu Ihrem nächsten Schritt.

u8621011 am 30. Mai 2018

@u8621011 underthesea ist nicht meine Arbeit, aber sie machen einen guten Job =)

Ich bin mir nicht sicher, wie viel Kilometer wir erzielen können, wenn wir mit der Portierung ab Jvntextpro . Aber ich denke, ich werde erst Ende Juli einen weiteren Portierungsversuch unternehmen können.

Vietnamesische Unterstützung steht sicherlich auf der Liste der Dinge, die ich persönlich gerne im NLTK sehen und bearbeiten würde.

alvations am 30. Mai 2018

rain1024 am 30. Mai 2018

❤4 👍3

War diese Seite hilfreich?

0 / 5 - 0 Bewertungen

Nltk: NLTK für Vietnamesen

Hilfreichster Kommentar

Alle 22 Kommentare

Verwandte Themen