Просто небольшая проблема. agressive_dash_splits
написано с ошибкой. Это должно быть aggressive_dash_splits
. Или, возможно, используйте hyphen
вместо dash
чтобы соответствовать как члену класса AGGRESSIVE_HYPHEN_SPLIT
и tokenizer.perl
.
http://www.nltk.org/api/nltk.tokenize.html#nltk.tokenize.moses.MosesTokenizer.tokenize
Также эта функциональность не тестируется.
Спасибо @somnathrakshit за быстрый пиар. Обратите внимание, что изменение имени параметра нарушает работу API, поэтому может быть лучше сначала предоставить его в качестве опции с DeprecationWarning, когда используется старое имя параметра, а затем его можно будет полностью удалить в следующей основной версии. Возможно, обычный разработчик NLTK сможет прокомментировать эту процедуру здесь, поскольку я не видел, чтобы она явно упоминалась в руководящих принципах разработчика или в документе CONTRIBUTING.md. @alvations , есть ли какие-либо рекомендации или прецеденты для изменения имен функций / параметров?
@goodmami @somnathrakshit в этом случае не беспокойтесь о нарушении API. Большинство людей было бы больше сбито с толку аргументом об опечатке, а не правильным =)
Что касается устаревания и нарушения пользовательского пространства, в этом случае это наша вина, и пользователям проще обновиться до новой версии NLTK.
Но в других случаях, особенно. когда дело доходит до более серьезных изменений, а не просто опечатки, мы можем использовать warnings
как то, что мы сделали с устаревшими инструментами Стэнфорда https://github.com/nltk/nltk/blob/develop/nltk/tag /stanford.py#L51
Спасибо @alvations за то, что
Решено # 1956.
@somnathrakshit Спасибо за вклад! К сожалению, в GSoC 2018 мы не участвуем. Возможно, еще год, когда у нас будет больше волонтеров =)