Nltk: NLTK für Vietnamesen

Erstellt am 31. Mai 2015  ·  22Kommentare  ·  Quelle: nltk/nltk

Hat nltk die vietnamesische Sprache unterstützt?

Falls nicht. Wie kann ich dazu beitragen, dass ntlk die vietnamesische Sprache unterstützt?

Es wäre so

>>> import nltk
>>> sentence = "Vào tám giờ thứ sáu, tôi cảm thấy không được khỏe."

>>> tokens = nltk.word_tokenize(sentence)
>>> tokens
['Vào', 'tám', "giờ", 'sáng', 'thứ sáu', 'tôi', 'cảm thấy', 'không', 'được', 'khỏe', '.']
>>> tagged = nltk.pos_tag(tokens)
>>> tagged[0:5]
[('Vào', 'IN'), ('tám', 'CD'), ("giờ", 'JJ'), ('sáng', 'NN'), ('thứ sáu', 'NNP'), ]
corpus enhancement inactive nice idea

Hilfreichster Kommentar

@ u8621011 Schön, dass Sie gefragt haben. Unsere nächsten Schritte in underthesea sind die Integration weiterer Module wie Sprachsynthese, maschinelle Übersetzung und (einfacher) Chatbot für Vietnamesisch und die Verbesserung der Geschwindigkeit und Genauigkeit in aktuellen Modulen (Wortsegmentierung, Pos-Tagging, Chunking, Named-Entity-Erkennung, Textklassifizierung und Stimmungsanalyse). .

Über den Portierungsplan in nltk denke ich, dass wir im Moment Code in reinem Python schreiben können, um Wortsegmentierungsaufgaben zu erledigen (vielleicht mit Cython, um die Leistung zu beschleunigen). Ich und mein Freund @trungtv haben vor 2 Monaten einen akzeptierten Pull-Request in spacy .

Alle 22 Kommentare

Hallo @stevenbird ,
Was denken Sie ? Wahrscheinlich können wir diese portieren
http://jvntextpro.sourceforge.net/

@rain1024 möchten Sie eine Portierung durchführen oder Wrapper für externe Java-Bibliotheken beitragen?

@stevenbird : ja. Ich bin froh, dies zu tun.

@longdt219 :

Ja sicher @rain1024

Hallo @longdt219

kann ich deine E-Mail-Adresse haben? Ich melde mich für weitere Informationen bei Ihnen :smile:

Hallo @rain1024 ,
Ich habe Ihnen eine E-Mail geschickt, aber wahrscheinlich können wir hier diskutieren, damit sich andere an der Diskussion beteiligen können.

@rain1024 @longdt219 ,

Wie wäre es, diese https://github.com/rockkhuya/DongDu als ersten Schritt zu portieren? Welches auf Wortsegmentierung abzielt und übrigens in C++ geschrieben ist.

Ich kenne C++ oder Java nicht, aber dieses Tool muss laut http://xltiengviet.wikia.com/wiki/K%E1%BB%B7_l%E1%BB%A5c_t%C3%A1ch_t die bisher beste Leistung haben

Hallo, ich nochmal,

Nachdem ich eine Weile herumgesucht hatte, stellte ich fest, dass die Wortsegmentierung im Vietnamesischen ein wirklich schwieriges Problem ist, ganz zu schweigen vom POS-Tagging.

Ich hatte eine Idee, die von https://github.com/mesnilgr/is13 inspiriert wurde, um Deep Learning zum Erlernen von

Ich habe hier https://github.com/manhtai/vietseg ein neuronales Netz für die vietnamesische Wortsegmentierung implementiert

Im Moment ist es nicht so gut. Aber ich habe es zumindest versucht, oder? :Lächeln:

Von der Leistung her sieht es aber ok aus. Aber was ist die Grundlinie?
Was sind die Abhängigkeiten? Die Verwendung von network.py von https://github.com/mnielsen/neural-networks-and-deep-learning ist wahrscheinlich kein guter Weg in Bezug auf Wartung und Lizenzierung. Die Idee ist, dass wir uns nicht auf externen Code verlassen wollen.
Die Verwendung von Theano (Python-basiert) dafür könnte eine bessere (und einfachere) Lösung sein.

Danke, ich suche nach einer Baseline und werde sie bald hinzufügen.

Theano ist vielleicht besser, aber nicht einfacher, network.py ist eine unabhängige Datei mit weniger als 300 Zeilen Code.

Wie auch immer, es ist nur eine schnelle und schmutzige Implementierung. Ich habe der README-Datei zukünftige Werke hinzugefügt, und das ist für die zukünftige Arbeit :smile_cat:

@longdt219 @rain1024 Ich benutze jvntextpro2 seit einiger Zeit und es ist ziemlich anständig. Es ist in Java geschrieben und auch ein Open-Source-Projekt. Wir können uns auch dafür entscheiden, dies zu portieren.

Auf das Problem stoßen ;P

Ich habe vor einiger Zeit einen JVnTextPro-Wrapper geschrieben, aber er ist nicht richtig dokumentiert und der Codierungsstil ist veraltet, aber ich hoffe, es hilft.

Wäre toll, auch andere asiatische Annotator-Wrapper/Ports zu sehen =)

@alvations :

@letuanh nach

:+1: Es wäre toll, Vietnamesen zu unterstützen

wow... das ist ein tolles Zeug. Würde mich über vietnamesische Unterstützung freuen!

@manhtai planen Sie, Ihr Projekt fortzusetzen

Kommen wir nach der nächsten Nebenversion auf dieses Problem zurück =)
Aber schau in der Zwischenzeit mal auf https://github.com/magizbox/underthesea

@rain1024 Wie wäre es mit Ihrem ursprünglichen Portierungsplan? Ich bin hierher gekommen, weil ich eine Python-Version vnTokenizer portiert habe und plane, ob eine Portierung in nltk möglich ist. Ich habe auch Ihre durchweg gute Arbeit von underthesea gesehen und habe eine Frage zu Ihrem nächsten Schritt.

@u8621011 underthesea ist nicht meine Arbeit, aber sie machen einen guten Job =)

Ich bin mir nicht sicher, wie viel Kilometer wir erzielen können, wenn wir mit der Portierung ab Jvntextpro . Aber ich denke, ich werde erst Ende Juli einen weiteren Portierungsversuch unternehmen können.

Vietnamesische Unterstützung steht sicherlich auf der Liste der Dinge, die ich persönlich gerne im NLTK sehen und bearbeiten würde.

@ u8621011 Schön, dass Sie gefragt haben. Unsere nächsten Schritte in underthesea sind die Integration weiterer Module wie Sprachsynthese, maschinelle Übersetzung und (einfacher) Chatbot für Vietnamesisch und die Verbesserung der Geschwindigkeit und Genauigkeit in aktuellen Modulen (Wortsegmentierung, Pos-Tagging, Chunking, Named-Entity-Erkennung, Textklassifizierung und Stimmungsanalyse). .

Über den Portierungsplan in nltk denke ich, dass wir im Moment Code in reinem Python schreiben können, um Wortsegmentierungsaufgaben zu erledigen (vielleicht mit Cython, um die Leistung zu beschleunigen). Ich und mein Freund @trungtv haben vor 2 Monaten einen akzeptierten Pull-Request in spacy .

War diese Seite hilfreich?
0 / 5 - 0 Bewertungen