Nltk: تحسين الترميز لتعبيرات الكلمات المتعددة من خلال تضمين "مقسم البايثون"

تم إنشاؤها على ١١ ديسمبر ٢٠١٨  ·  9تعليقات  ·  مصدر: nltk/nltk

أظن أن jakerylandwilliams & andyreagan 's https://github.com/jakerylandwilliams/partitioner يمكن أن يحسن بشكل كبير جودة الرمز المميز لـ NLTK ، وتحديداً عندما يتعلق الأمر بـ MWEs (تعابير متعددة الكلمات).

@ NeelShah18 نقلته مؤخرًا إلى Python 3:

https://github.com/jakerylandwilliams/partitioner/pull/7

لذلك ، يجب أن يبدو تضمينه في NLTK أمرًا سهلاً بدرجة كافية.

لمزيد من المعلومات حول النهج المستخدم هناك ، انظر هنا:

https://noisy-text.github.io/2017/pdf/WNUT01.pdf

و هنا:
https://arxiv.org/abs/1710.07729

إنه مرخص Apache 2.0 ، لذا تبدو التراخيص متوافقة أيضًا.

enhancement nice idea tokenizer

التعليق الأكثر فائدة

alvations و @ NeelShah18 ، أوافق على أن سحب وإعادة تغليف المعاجم ومورد تجزئة MWE وفقًا لهيكل NLTK وقواعد الترميز سيكون أكثر منطقية للتكامل. هناك عدد قليل من النماذج والأدوات المساعدة داخل https://github.com/jakerylandwilliams/partitioner وقد تم ذكر النموذج الأنسب لـ NLTK في الجزء العلوي من الموضوع بواسطة @ no-identd:

https://noisy-text.github.io/2017/pdf/WNUT01.pdf

إذا كان هذا مفيدًا ، فيمكنني بالتأكيد المساعدة في تنفيذ بعض المهام الضرورية.

ال 9 كومينتر

ملاحظة / إضافة صغيرة على / لهذا ، منذ:
أ) أهملت ذكره في المنشور الأول ؛ و
ب) يبدو أنه يستحق الذكر:
يستخدم Python Partitioner بالفعل NLTK.

شكرا لاقتراح التقسيم. لم أره من قبل. استنادًا إلى الورقة البحثية ، يبدو أنه يقوم بإجراء تجزئة MWE اعتمادًا على بيانات التدريب التي تحمل علامة MWE واحتمالات n-gram والموارد المعجمية الكبيرة (المستخرجة أساسًا من Wiktionary / Wikipedia). على عكس معظم الأساليب الإحصائية ، فإنه يتجنب العمليات الحسابية باهظة الثمن ، ويؤجل بشكل أساسي معظم العمل إلى عدد مرات البحث وعمليات البحث في القاموس. الأداة تدعم 18 لغة بارسم ، بما في ذلك الإنجليزية ومجموعة متنوعة من اللغات الأوروبية.

إذا تمت إضافة هذا إلى NLTK ، فما حجمه؟ الريبو للقسم> 100 ميغا بايت. إذا كانت هناك ملفات بيانات كبيرة ، أفترض أن المستخدم سيضطر إلى استخدام nltk.download() لطلبها.

يجب أن يستغرق تحميل موارد البيانات الكبيرة في الذاكرة وقتًا لتشغيل النظام - هل يستغرق الأمر بضع ثوانٍ فقط أم أكثر؟

لاحظ أن هذا يتجاوز "الترميز" القياسي من حيث الوحدات المعجمية الهجائية ، لذا فهو ليس بديلاً عن الترميز الأساسي أو اللماتة (# 1214).

لسوء الحظ ، سأضطر إلى تمرير هذه الأسئلة بسبب قيود الوقت ونقص الخبرة التشغيلية مع التقسيم ، على الأقل في المستقبل المنظور. آسف! ولكن ربما يستطيعjakerylandwilliams أو andyreagan الإجابة على هذه الأسئلة

شكرًا @ no-identd و nschneid على تواصلك ؛ أنا سعيد للاهتمام بالوحدة. نحن نعمل حاليًا على بعض التحسينات النهائية والبيانات والنماذج لـ Python 3. إذا كان إدخال الإصدار الحالي في nltk أمرًا منطقيًا ، أعتقد أنه سيكون من السهل جدًا تنفيذه.

nschneid ،

يسعدني المضي قدمًا في المناقشة والإجابة على أي أسئلة أخرى.

jakerylandwilliamsnschneid إذا تم حذفنا من ويكيبيديا وحتى استخدمنا أداة التنزيل الافتراضية بواسطة nltk أكثر من كونها متوافقة مع python2 و python3. يمكنني المساعدة في استقلالية الأنظمة الأساسية المتعددة (python2 و python3) لرمز التقسيم.

في الواقع ، إذا كان https://github.com/jakerylandwilliams/partitioner عبارة عن حزمة عاملة بالفعل في Python ، فقد لا تكون هناك حاجة لنقل / إعادة تنفيذ التعليمات البرمجية. يمكن للمستخدمين بسهولة اختيار استخدام رمز التقسيم مباشرة.

إذا كنا نريد "الأشياء الجيدة" مثل MWE ، فيمكننا أخذ المعاجم الجغرافية من المُقسِّم ، بطريقة أو بأخرى حزم مورد MWE بدلاً من نقل مستودع التقسيم بأكمله إلى NLTK. إذا أراد مشرفو التقسيم الحفاظ على الكود في NLTK بدلاً من حزمة pypi ، فأعتقد أن الأمر يستحق مجهود نقل الكود من مكتبات Python التابعة لجهات خارجية.

alvations أتفق مع اقتراحه. لكنني أرى تطبيق NLTK الذي يتعين علينا إعادة كتابته وفقًا لهيكل واختبار NLTK. نحتاج أيضًا إلى رمز للمحمول في python2 و python3 لجعل قواعد ترميز مكتبة NLTK.

alvations و @ NeelShah18 ، أوافق على أن سحب وإعادة تغليف المعاجم ومورد تجزئة MWE وفقًا لهيكل NLTK وقواعد الترميز سيكون أكثر منطقية للتكامل. هناك عدد قليل من النماذج والأدوات المساعدة داخل https://github.com/jakerylandwilliams/partitioner وقد تم ذكر النموذج الأنسب لـ NLTK في الجزء العلوي من الموضوع بواسطة @ no-identd:

https://noisy-text.github.io/2017/pdf/WNUT01.pdf

إذا كان هذا مفيدًا ، فيمكنني بالتأكيد المساعدة في تنفيذ بعض المهام الضرورية.

🤔

هل كانت هذه الصفحة مفيدة؟
0 / 5 - 0 التقييمات

القضايا ذات الصلة

alvations picture alvations  ·  4تعليقات

talbaumel picture talbaumel  ·  4تعليقات

DavidNemeskey picture DavidNemeskey  ·  4تعليقات

mwess picture mwess  ·  5تعليقات

vezeli picture vezeli  ·  3تعليقات