Nltk: NLTK для вьетнамского

Созданный на 31 мая 2015 · 22Комментарии · Источник: nltk/nltk

Поддерживает ли nltk вьетнамский язык?

Если нет. Как я могу сделать так, чтобы ntlk поддерживал вьетнамский язык?

Это было бы так

>>> import nltk
>>> sentence = "Vào tám giờ thứ sáu, tôi cảm thấy không được khỏe."

>>> tokens = nltk.word_tokenize(sentence)
>>> tokens
['Vào', 'tám', "giờ", 'sáng', 'thứ sáu', 'tôi', 'cảm thấy', 'không', 'được', 'khỏe', '.']
>>> tagged = nltk.pos_tag(tokens)
>>> tagged[0:5]
[('Vào', 'IN'), ('tám', 'CD'), ("giờ", 'JJ'), ('sáng', 'NN'), ('thứ sáu', 'NNP'), ]

corpus enhancement inactive nice idea

Источник

rain1024

Самый полезный комментарий

@ u8621011 Рад, что вы спросили. Наши следующие шаги в подводном мире - это интеграция дополнительных модулей, таких как синтез речи, машинный перевод и (простой) чат-бот для вьетнамского языка, а также повышение скорости и точности текущих модулей (сегментация слов, теги pos, фрагменты, распознавание именованных сущностей, классификация текста и анализ тональности). .

Что касается плана переноса в nltk, я думаю, что на данный момент мы можем написать код на чистом Python для выполнения задачи сегментации слов (возможно, с помощью Cython для повышения производительности). У меня и моего друга @trungtv есть принятый запрос на перенос 2 месяца назад.

rain1024 30 мая 2018

❤4 👍3

Все 22 Комментарий

Привет @stevenbird!
Что вы думаете ? Возможно мы сможем портировать эти
http://jvntextpro.sourceforge.net/

longdt219 8 июн. 2015

@ rain1024 , хотите ли вы портировать или

stevenbird 10 июн. 2015

@stevenbird : да. Я рад этим заниматься.

@ longdt219 : мы можем сделать это вместе?

rain1024 10 июн. 2015

Да конечно @ rain1024

longdt219 10 июн. 2015

привет @ longdt219

Можно адрес вашей электронной почты? Я свяжусь с вами для получения дополнительной информации: smile:

rain1024 10 июн. 2015

Привет @ rain1024 ,
Я написал вам по электронной почте, но, возможно, мы можем обсудить здесь, чтобы другие могли присоединиться к обсуждению.

longdt219 11 июн. 2015

@ rain1024 @ longdt219 ,

Как насчет переноса этого https://github.com/rockkhuya/DongDu в качестве первого шага? Которая, кстати, нацелена на сегментацию слов и написана на C ++.

Я не знаю C ++ или Java, но этот инструмент должен иметь лучшую производительность, согласно http://xltiengviet.wikia.com/wiki/K%E1%BB%B7_l%E1%BB%A5c_t%C3%A1ch_t % E1% BB% AB

manhtai 18 июн. 2015

Привет мне снова,

После некоторого поиска я обнаружил, что сегментация слов на вьетнамском языке - действительно сложная проблема, не говоря уже о тегах POS.

У меня возникла идея, вдохновленная https://github.com/mesnilgr/is13 на использование глубокого обучения для изучения встраивания слов, и я постараюсь ее реализовать. Может получиться что-нибудь интересное, а может и нет: smile_cat:

manhtai 18 июн. 2015

Я реализовал нейронную сеть для сегментирования вьетнамских слов здесь https://github.com/manhtai/vietseg. Посмотри!

Пока не все так хорошо. Но по крайней мере я пробовал, а? :улыбка:

manhtai 23 июн. 2015

Что касается производительности, то вроде все нормально. Однако каков исходный уровень?
Какие есть зависимости? использование network.py с https://github.com/mnielsen/neural-networks-and-deep-learning, вероятно, не лучший способ обслуживания и лицензирования. Идея в том, что мы не хотим полагаться на внешний код.
Использование Theano (на основе Python) для этого может быть лучшим (и более простым) решением.

longdt219 23 июн. 2015

Спасибо, ищу базовую версию и скоро добавлю.

Theano может быть лучше, но не проще, network.py - это независимый файл с менее чем 300 строками кода.

В любом случае, это всего лишь быстрая и грязная реализация. Я добавил будущие работы в файл README, и это для работы в будущем: smile_cat:

manhtai 23 июн. 2015

@ longdt219 @ rain1024 Я уже давно использую jvntextpro2, и он довольно приличный. Он написан на Java, а также является проектом с открытым исходным кодом. Мы также можем перенести это.

letuananh 14 сент. 2015

Столкновение с проблемой; P

Некоторое время назад я написал оболочку JVnTextPro, но она не задокументирована должным образом, а стиль кодирования устарел, но я надеюсь, что это поможет.

Было бы здорово увидеть обертки / порты аннотаторов других азиатских языков =)

alvations 28 февр. 2016

@alvations : вы заинтересованы в портировании JVnTextPro на NLTK: P?

letuananh 29 февр. 2016

@letuananh после долгих раздумий, да. После слияния нового токенизатора PTB интерфейс с JVN будет чем-то в моем списке задач. Хотите помочь?

alvations 5 мая 2017

: +1: Было бы здорово поддержать вьетнамцев

stevenbird 25 мая 2017

вау ... это потрясающий материал. Хотел бы получить поддержку вьетнамцев!

toannguyenle 4 июн. 2017

@manhtai , вы планируете продолжить свой проект? звучит потрясающе.

vietzerg 27 июл. 2017

Возвращаясь к этому вопросу после следующего второстепенного релиза =)
А пока взгляните на https://github.com/magizbox/underthesea

alvations 6 сент. 2017

@ rain1024 Как насчет вашего первоначального плана переноса? Я пришел сюда, потому что я портировал версию vnTokenizer для Python и планирую, можно ли ее портировать в nltk. Я также видел вашу постоянную хорошую работу под водой, и у меня есть вопрос о вашем следующем шаге.

u8621011 30 мая 2018

@ u8621011 underthesea - это не моя работа, но они делают свою работу хорошо =)

Я не уверен, сколько миль мы сможем получить, если начнем портировать с Jvntextpro . Но я думаю, что не смогу еще раз попытаться портировать до конца июля.

Вьетнамская поддержка, безусловно, входит в список того, что я лично хотел бы видеть и над чем поработать в NLTK.

alvations 30 мая 2018

rain1024 30 мая 2018

❤4 👍3

Была ли эта страница полезной?

0 / 5 - 0 рейтинги

Смежные вопросы

Принять абстрактный синтаксис базового класса

stevenbird · 4Комментарии

Прекращение поддержки старого парсера Stanford

alvations · 4Комментарии

Помоги мне, пожалуйста! интеграция nltk и standford nlp

libingnan54321 · 3Комментарии

Неверный URL Megam

Chris00 · 3Комментарии

Токенизатор предложений не разделяется правильно

jeryini · 5Комментарии