Nltk: NLTK untuk Vietnam

Dibuat pada 31 Mei 2015 · 22Komentar · Sumber: nltk/nltk

Apakah nltk mendukung bahasa Vietnam?

Jika belum. Bagaimana saya dapat berkontribusi untuk membuat ntlk mendukung bahasa Vietnam?

Ini akan menjadi seperti ini

>>> import nltk
>>> sentence = "Vào tám giờ thứ sáu, tôi cảm thấy không được khỏe."

>>> tokens = nltk.word_tokenize(sentence)
>>> tokens
['Vào', 'tám', "giờ", 'sáng', 'thứ sáu', 'tôi', 'cảm thấy', 'không', 'được', 'khỏe', '.']
>>> tagged = nltk.pos_tag(tokens)
>>> tagged[0:5]
[('Vào', 'IN'), ('tám', 'CD'), ("giờ", 'JJ'), ('sáng', 'NN'), ('thứ sáu', 'NNP'), ]

corpus enhancement inactive nice idea

Sumber

rain1024

Komentar yang paling membantu

@u8621011 Senang Anda bertanya. Langkah kami selanjutnya di bawah laut adalah mengintegrasikan lebih banyak modul seperti sintesis ucapan, terjemahan mesin, dan chatbot (sederhana) untuk bahasa Vietnam dan meningkatkan kecepatan dan akurasi dalam modul saat ini (segmentasi kata, penandaan pos, chunking, pengenalan entitas bernama, klasifikasi teks, dan analisis sentimen) .

Tentang rencana porting di nltk, saya pikir kita dapat menulis kode dengan python murni untuk melakukan tugas segmentasi kata (mungkin dengan cython untuk mempercepat kinerja) saat ini. Saya dan teman saya @trungtv menerima permintaan tarik di spacy 2 bulan yang lalu.

rain1024 pada 30 Mei 2018

❤4 👍3

Semua 22 komentar

Hai @stevenbird ,
Bagaimana menurutmu ? Mungkin kita bisa port ini
http://jvntextpro.sourceforge.net/

longdt219 pada 8 Jun 2015

@rain1024 apakah Anda ingin melakukan porting, atau berkontribusi pembungkus untuk perpustakaan Java eksternal?

stevenbird pada 10 Jun 2015

@stevenbird : iya. Saya senang melakukan ini.

@longdt219 : bisakah kita melakukan ini bersama?

rain1024 pada 10 Jun 2015

Ya pasti @rain1024

longdt219 pada 10 Jun 2015

hai @longdt219

boleh saya minta email anda? Saya akan menghubungi Anda untuk informasi lebih lanjut :senyum:

rain1024 pada 10 Jun 2015

Hai @rain1024 ,
Saya mengirim email kepada Anda, tetapi mungkin kita dapat berdiskusi di sini sehingga orang lain dapat bergabung dalam diskusi.

longdt219 pada 11 Jun 2015

@rain1024 @longdt219 ,

Bagaimana dengan porting ini https://github.com/rockkhuya/DongDu sebagai langkah pertama? Yang ditujukan untuk segmentasi kata dan ditulis dalam C++.

Saya tidak tahu C++ atau Java tetapi alat itu harus memiliki kinerja terbaik sejauh ini, menurut http://xltiengviet.wikia.com/wiki/K%E1%BB%B7_l%E1%BB%A5c_t%C3%A1ch_t %E1%BB%AB

manhtai pada 18 Jun 2015

Hai, saya lagi,

Setelah mencari-cari sebentar, saya menemukan bahwa segmentasi kata dalam bahasa Vietnam adalah masalah yang sangat sulit, belum lagi penandaan POS.

Saya punya ide yang diilhami oleh https://github.com/mesnilgr/is13 untuk menggunakan pembelajaran mendalam untuk mempelajari penyematan kata, dan saya akan mencoba mengimplementasikannya. Beberapa yang menarik mungkin datang, atau tidak :smile_cat:

manhtai pada 18 Jun 2015

Saya telah menerapkan jaring saraf untuk segmentasi kata Vietnam di sini https://github.com/manhtai/vietseg. Lihat!

Ini tidak begitu baik untuk saat ini. Tapi setidaknya aku sudah mencoba, ya? :senyum:

manhtai pada 23 Jun 2015

Soal performa, sepertinya oke. Namun, apa dasarnya?
Apa itu dependensi? menggunakan network.py dari https://github.com/mnielsen/neural-networks-and-deep-learning mungkin bukan cara yang baik untuk pemeliharaan dan lisensi. Idenya adalah kita tidak ingin bergantung pada kode eksternal.
Menggunakan Theano (berbasis python) untuk ini mungkin merupakan solusi yang lebih baik (dan lebih sederhana).

longdt219 pada 23 Jun 2015

Terima kasih, saya sedang mencari garis dasar dan akan segera menambahkannya.

Theano mungkin lebih baik tetapi tidak lebih sederhana, network.py adalah file independen dengan kurang dari 300 baris kode.

Bagaimanapun, ini hanya implementasi yang cepat dan kotor. Saya telah menambahkan karya mendatang ke file README, dan itu untuk bekerja di masa mendatang :smile_cat:

manhtai pada 23 Jun 2015

@longdt219 @rain1024 Saya telah menggunakan jvntextpro2 untuk sementara dan itu cukup baik. Itu ditulis dalam Java dan juga merupakan proyek opensource. Kami dapat memilih untuk port ini juga.

letuananh pada 14 Sep 2015

Mengatasi masalah ;P

Saya telah menulis pembungkus JVnTextPro beberapa waktu lalu tetapi tidak didokumentasikan dengan benar dan gaya pengkodean sudah usang tetapi saya harap ini membantu.

Akan sangat bagus untuk melihat pembungkus/port annotator bahasa Asia lainnya juga =)

alvations pada 28 Feb 2016

@alvations : apakah Anda tertarik untuk mem-porting JVnTextPro ke NLTK: P?

letuananh pada 29 Feb 2016

@letuananh setelah banyak berpikir, ya. Setelah tokenizer PTB baru digabungkan, antarmuka ke JVN akan menjadi sesuatu di daftar tugas saya. Peduli untuk membantu?

alvations pada 5 Mei 2017

:+1: Akan sangat bagus untuk mendukung bahasa Vietnam

stevenbird pada 25 Mei 2017

wah... bagus banget barangnya. Akan senang mendapat dukungan Vietnam!

toannguyenle pada 4 Jun 2017

@manhtai apakah Anda berencana untuk melanjutkan proyek Anda. kedengarannya mengagumkan.

vietzerg pada 27 Jul 2017

Kembali ke masalah ini setelah rilis minor berikutnya =)
Tapi sementara itu lihat https://github.com/magizbox/underthesea

alvations pada 6 Sep 2017

@rain1024 Bagaimana dengan rencana porting awal Anda? Saya sampai di sini karena saya telah mem-porting vnTokenizer versi python dan merencanakan apakah mungkin untuk porting ke nltk. Saya juga melihat pekerjaan bagus Anda yang berkelanjutan di bawah laut dan memiliki pertanyaan tentang langkah Anda selanjutnya.

u8621011 pada 30 Mei 2018

@u8621011 underthesea bukan pekerjaan saya tetapi mereka melakukan pekerjaan dengan baik =)

Saya tidak yakin berapa banyak jarak tempuh yang bisa kita dapatkan jika kita mulai melakukan porting dari Jvntextpro . Tapi saya rasa saya tidak akan bisa mencoba porting lagi sampai akhir Juli.

Dukungan Vietnam pasti ada dalam daftar hal-hal yang secara pribadi ingin saya lihat dan kerjakan di NLTK.

alvations pada 30 Mei 2018

rain1024 pada 30 Mei 2018

❤4 👍3

Apakah halaman ini membantu?

0 / 5 - 0 peringkat

Masalah terkait

Parameter fungsi yang salah eja untuk MosesTokenizer: agressive_dash_splits

goodmami · 4Komentar

Tag CoreNLPparser() harus memungkinkan properti kelebihan beban

alvations · 3Komentar

Jarak Jaro-Winkler dalam nltk.metrics.distance

zdog234 · 3Komentar

HiddenMarkovModelTrainer train_unsupervised - TypeError

chaseireland · 3Komentar

Berfungsi untuk mengakses objek Synset menggunakan tombol sense

alvations · 4Komentar