Apenas um pequeno problema. O agressive_dash_splits
está incorreto. Deve ser aggressive_dash_splits
. Ou talvez use hyphen
vez de dash
para ser consistente tanto com o membro da classe AGGRESSIVE_HYPHEN_SPLIT
quanto com tokenizer.perl
.
http://www.nltk.org/api/nltk.tokenize.html#nltk.tokenize.moses.MosesTokenizer.tokenize
Além disso, essa funcionalidade não parece ter sido testada.
Obrigado @somnathrakshit pelo rápido PR. Observe que alterar o nome do parâmetro quebra a API, portanto, pode ser melhor primeiro fornecê-lo como uma opção com um DeprecationWarning quando o nome do parâmetro antigo for usado, então ele pode ser totalmente removido na próxima versão principal. Talvez um desenvolvedor de NLTK normal possa comentar sobre o procedimento aqui, pois não o vi mencionado explicitamente nas diretrizes do desenvolvedor ou no documento CONTRIBUTING.md. @alvations , há alguma orientação ou precedente para alterar nomes de função / parâmetro?
@goodmami @somnathrakshit não se preocupe em quebrar a API neste caso. A maioria das pessoas ficaria mais frustrada com o argumento de digitação em vez do correto =)
Em relação à depreciação e quebra de espaço do usuário, neste caso é nossa culpa e é mais fácil para os usuários atualizarem para a nova versão do NLTK.
Mas em outros casos, esp. quando se trata de mudanças mais importantes que não são apenas erros de digitação, podemos usar warnings
como o que fizemos com as ferramentas obsoletas de Stanford https://github.com/nltk/nltk/blob/develop/nltk/tag /stanford.py#L51
Obrigado @alvations por nos informar. Como um iniciante em código aberto, foi bom mexer com o nltk. Você participa do GSoC 2018?
Resolvido em # 1956
@somnathrakshit Obrigado pela contribuição! Infelizmente, não vamos participar do GSoC 2018. Talvez mais um ano quando tivermos mais voluntários =)