Nltk: NLTK для вьетнамского

Созданный на 31 мая 2015  ·  22Комментарии  ·  Источник: nltk/nltk

Поддерживает ли nltk вьетнамский язык?

Если нет. Как я могу сделать так, чтобы ntlk поддерживал вьетнамский язык?

Это было бы так

>>> import nltk
>>> sentence = "Vào tám giờ thứ sáu, tôi cảm thấy không được khỏe."

>>> tokens = nltk.word_tokenize(sentence)
>>> tokens
['Vào', 'tám', "giờ", 'sáng', 'thứ sáu', 'tôi', 'cảm thấy', 'không', 'được', 'khỏe', '.']
>>> tagged = nltk.pos_tag(tokens)
>>> tagged[0:5]
[('Vào', 'IN'), ('tám', 'CD'), ("giờ", 'JJ'), ('sáng', 'NN'), ('thứ sáu', 'NNP'), ]
corpus enhancement inactive nice idea

Самый полезный комментарий

@ u8621011 Рад, что вы спросили. Наши следующие шаги в подводном мире - это интеграция дополнительных модулей, таких как синтез речи, машинный перевод и (простой) чат-бот для вьетнамского языка, а также повышение скорости и точности текущих модулей (сегментация слов, теги pos, фрагменты, распознавание именованных сущностей, классификация текста и анализ тональности). .

Что касается плана переноса в nltk, я думаю, что на данный момент мы можем написать код на чистом Python для выполнения задачи сегментации слов (возможно, с помощью Cython для повышения производительности). У меня и моего друга @trungtv есть принятый запрос на перенос 2 месяца назад.

Все 22 Комментарий

Привет @stevenbird!
Что вы думаете ? Возможно мы сможем портировать эти
http://jvntextpro.sourceforge.net/

@ rain1024 , хотите ли вы портировать или

@stevenbird : да. Я рад этим заниматься.

@ longdt219 : мы можем сделать это вместе?

Да конечно @ rain1024

привет @ longdt219

Можно адрес вашей электронной почты? Я свяжусь с вами для получения дополнительной информации: smile:

Привет @ rain1024 ,
Я написал вам по электронной почте, но, возможно, мы можем обсудить здесь, чтобы другие могли присоединиться к обсуждению.

@ rain1024 @ longdt219 ,

Как насчет переноса этого https://github.com/rockkhuya/DongDu в качестве первого шага? Которая, кстати, нацелена на сегментацию слов и написана на C ++.

Я не знаю C ++ или Java, но этот инструмент должен иметь лучшую производительность, согласно http://xltiengviet.wikia.com/wiki/K%E1%BB%B7_l%E1%BB%A5c_t%C3%A1ch_t % E1% BB% AB

Привет мне снова,

После некоторого поиска я обнаружил, что сегментация слов на вьетнамском языке - действительно сложная проблема, не говоря уже о тегах POS.

У меня возникла идея, вдохновленная https://github.com/mesnilgr/is13 на использование глубокого обучения для изучения встраивания слов, и я постараюсь ее реализовать. Может получиться что-нибудь интересное, а может и нет: smile_cat:

Я реализовал нейронную сеть для сегментирования вьетнамских слов здесь https://github.com/manhtai/vietseg. Посмотри!

Пока не все так хорошо. Но по крайней мере я пробовал, а? :улыбка:

Что касается производительности, то вроде все нормально. Однако каков исходный уровень?
Какие есть зависимости? использование network.py с https://github.com/mnielsen/neural-networks-and-deep-learning, вероятно, не лучший способ обслуживания и лицензирования. Идея в том, что мы не хотим полагаться на внешний код.
Использование Theano (на основе Python) для этого может быть лучшим (и более простым) решением.

Спасибо, ищу базовую версию и скоро добавлю.

Theano может быть лучше, но не проще, network.py - это независимый файл с менее чем 300 строками кода.

В любом случае, это всего лишь быстрая и грязная реализация. Я добавил будущие работы в файл README, и это для работы в будущем: smile_cat:

@ longdt219 @ rain1024 Я уже давно использую jvntextpro2, и он довольно приличный. Он написан на Java, а также является проектом с открытым исходным кодом. Мы также можем перенести это.

Столкновение с проблемой; P

Некоторое время назад я написал оболочку JVnTextPro, но она не задокументирована должным образом, а стиль кодирования устарел, но я надеюсь, что это поможет.

Было бы здорово увидеть обертки / порты аннотаторов других азиатских языков =)

@alvations : вы заинтересованы в портировании JVnTextPro на NLTK: P?

@letuananh после долгих раздумий, да. После слияния нового токенизатора PTB интерфейс с JVN будет чем-то в моем списке задач. Хотите помочь?

: +1: Было бы здорово поддержать вьетнамцев

вау ... это потрясающий материал. Хотел бы получить поддержку вьетнамцев!

@manhtai , вы планируете продолжить свой проект? звучит потрясающе.

Возвращаясь к этому вопросу после следующего второстепенного релиза =)
А пока взгляните на https://github.com/magizbox/underthesea

@ rain1024 Как насчет вашего первоначального плана переноса? Я пришел сюда, потому что я портировал версию vnTokenizer для Python и планирую, можно ли ее портировать в nltk. Я также видел вашу постоянную хорошую работу под водой, и у меня есть вопрос о вашем следующем шаге.

@ u8621011 underthesea - это не моя работа, но они делают свою работу хорошо =)

Я не уверен, сколько миль мы сможем получить, если начнем портировать с Jvntextpro . Но я думаю, что не смогу еще раз попытаться портировать до конца июля.

Вьетнамская поддержка, безусловно, входит в список того, что я лично хотел бы видеть и над чем поработать в NLTK.

@ u8621011 Рад, что вы спросили. Наши следующие шаги в подводном мире - это интеграция дополнительных модулей, таких как синтез речи, машинный перевод и (простой) чат-бот для вьетнамского языка, а также повышение скорости и точности текущих модулей (сегментация слов, теги pos, фрагменты, распознавание именованных сущностей, классификация текста и анализ тональности). .

Что касается плана переноса в nltk, я думаю, что на данный момент мы можем написать код на чистом Python для выполнения задачи сегментации слов (возможно, с помощью Cython для повышения производительности). У меня и моего друга @trungtv есть принятый запрос на перенос 2 месяца назад.

Была ли эта страница полезной?
0 / 5 - 0 рейтинги