Nltk: NLTK untuk Vietnam

Dibuat pada 31 Mei 2015  ·  22Komentar  ·  Sumber: nltk/nltk

Apakah nltk mendukung bahasa Vietnam?

Jika belum. Bagaimana saya dapat berkontribusi untuk membuat ntlk mendukung bahasa Vietnam?

Ini akan menjadi seperti ini

>>> import nltk
>>> sentence = "Vào tám giờ thứ sáu, tôi cảm thấy không được khỏe."

>>> tokens = nltk.word_tokenize(sentence)
>>> tokens
['Vào', 'tám', "giờ", 'sáng', 'thứ sáu', 'tôi', 'cảm thấy', 'không', 'được', 'khỏe', '.']
>>> tagged = nltk.pos_tag(tokens)
>>> tagged[0:5]
[('Vào', 'IN'), ('tám', 'CD'), ("giờ", 'JJ'), ('sáng', 'NN'), ('thứ sáu', 'NNP'), ]
corpus enhancement inactive nice idea

Komentar yang paling membantu

@u8621011 Senang Anda bertanya. Langkah kami selanjutnya di bawah laut adalah mengintegrasikan lebih banyak modul seperti sintesis ucapan, terjemahan mesin, dan chatbot (sederhana) untuk bahasa Vietnam dan meningkatkan kecepatan dan akurasi dalam modul saat ini (segmentasi kata, penandaan pos, chunking, pengenalan entitas bernama, klasifikasi teks, dan analisis sentimen) .

Tentang rencana porting di nltk, saya pikir kita dapat menulis kode dengan python murni untuk melakukan tugas segmentasi kata (mungkin dengan cython untuk mempercepat kinerja) saat ini. Saya dan teman saya @trungtv menerima permintaan tarik di spacy 2 bulan yang lalu.

Semua 22 komentar

Hai @stevenbird ,
Bagaimana menurutmu ? Mungkin kita bisa port ini
http://jvntextpro.sourceforge.net/

@rain1024 apakah Anda ingin melakukan porting, atau berkontribusi pembungkus untuk perpustakaan Java eksternal?

@stevenbird : iya. Saya senang melakukan ini.

@longdt219 : bisakah kita melakukan ini bersama?

Ya pasti @rain1024

hai @longdt219

boleh saya minta email anda? Saya akan menghubungi Anda untuk informasi lebih lanjut :senyum:

Hai @rain1024 ,
Saya mengirim email kepada Anda, tetapi mungkin kita dapat berdiskusi di sini sehingga orang lain dapat bergabung dalam diskusi.

@rain1024 @longdt219 ,

Bagaimana dengan porting ini https://github.com/rockkhuya/DongDu sebagai langkah pertama? Yang ditujukan untuk segmentasi kata dan ditulis dalam C++.

Saya tidak tahu C++ atau Java tetapi alat itu harus memiliki kinerja terbaik sejauh ini, menurut http://xltiengviet.wikia.com/wiki/K%E1%BB%B7_l%E1%BB%A5c_t%C3%A1ch_t %E1%BB%AB

Hai, saya lagi,

Setelah mencari-cari sebentar, saya menemukan bahwa segmentasi kata dalam bahasa Vietnam adalah masalah yang sangat sulit, belum lagi penandaan POS.

Saya punya ide yang diilhami oleh https://github.com/mesnilgr/is13 untuk menggunakan pembelajaran mendalam untuk mempelajari penyematan kata, dan saya akan mencoba mengimplementasikannya. Beberapa yang menarik mungkin datang, atau tidak :smile_cat:

Saya telah menerapkan jaring saraf untuk segmentasi kata Vietnam di sini https://github.com/manhtai/vietseg. Lihat!

Ini tidak begitu baik untuk saat ini. Tapi setidaknya aku sudah mencoba, ya? :senyum:

Soal performa, sepertinya oke. Namun, apa dasarnya?
Apa itu dependensi? menggunakan network.py dari https://github.com/mnielsen/neural-networks-and-deep-learning mungkin bukan cara yang baik untuk pemeliharaan dan lisensi. Idenya adalah kita tidak ingin bergantung pada kode eksternal.
Menggunakan Theano (berbasis python) untuk ini mungkin merupakan solusi yang lebih baik (dan lebih sederhana).

Terima kasih, saya sedang mencari garis dasar dan akan segera menambahkannya.

Theano mungkin lebih baik tetapi tidak lebih sederhana, network.py adalah file independen dengan kurang dari 300 baris kode.

Bagaimanapun, ini hanya implementasi yang cepat dan kotor. Saya telah menambahkan karya mendatang ke file README, dan itu untuk bekerja di masa mendatang :smile_cat:

@longdt219 @rain1024 Saya telah menggunakan jvntextpro2 untuk sementara dan itu cukup baik. Itu ditulis dalam Java dan juga merupakan proyek opensource. Kami dapat memilih untuk port ini juga.

Mengatasi masalah ;P

Saya telah menulis pembungkus JVnTextPro beberapa waktu lalu tetapi tidak didokumentasikan dengan benar dan gaya pengkodean sudah usang tetapi saya harap ini membantu.

Akan sangat bagus untuk melihat pembungkus/port annotator bahasa Asia lainnya juga =)

@alvations : apakah Anda tertarik untuk mem-porting JVnTextPro ke NLTK: P?

@letuananh setelah banyak berpikir, ya. Setelah tokenizer PTB baru digabungkan, antarmuka ke JVN akan menjadi sesuatu di daftar tugas saya. Peduli untuk membantu?

:+1: Akan sangat bagus untuk mendukung bahasa Vietnam

wah... bagus banget barangnya. Akan senang mendapat dukungan Vietnam!

@manhtai apakah Anda berencana untuk melanjutkan proyek Anda. kedengarannya mengagumkan.

Kembali ke masalah ini setelah rilis minor berikutnya =)
Tapi sementara itu lihat https://github.com/magizbox/underthesea

@rain1024 Bagaimana dengan rencana porting awal Anda? Saya sampai di sini karena saya telah mem-porting vnTokenizer versi python dan merencanakan apakah mungkin untuk porting ke nltk. Saya juga melihat pekerjaan bagus Anda yang berkelanjutan di bawah laut dan memiliki pertanyaan tentang langkah Anda selanjutnya.

@u8621011 underthesea bukan pekerjaan saya tetapi mereka melakukan pekerjaan dengan baik =)

Saya tidak yakin berapa banyak jarak tempuh yang bisa kita dapatkan jika kita mulai melakukan porting dari Jvntextpro . Tapi saya rasa saya tidak akan bisa mencoba porting lagi sampai akhir Juli.

Dukungan Vietnam pasti ada dalam daftar hal-hal yang secara pribadi ingin saya lihat dan kerjakan di NLTK.

@u8621011 Senang Anda bertanya. Langkah kami selanjutnya di bawah laut adalah mengintegrasikan lebih banyak modul seperti sintesis ucapan, terjemahan mesin, dan chatbot (sederhana) untuk bahasa Vietnam dan meningkatkan kecepatan dan akurasi dalam modul saat ini (segmentasi kata, penandaan pos, chunking, pengenalan entitas bernama, klasifikasi teks, dan analisis sentimen) .

Tentang rencana porting di nltk, saya pikir kita dapat menulis kode dengan python murni untuk melakukan tugas segmentasi kata (mungkin dengan cython untuk mempercepat kinerja) saat ini. Saya dan teman saya @trungtv menerima permintaan tarik di spacy 2 bulan yang lalu.

Apakah halaman ini membantu?
0 / 5 - 0 peringkat