Nltk: word_tokenize рд╡рд░реНрдгреЛрдВ рдХреА рдЬрдЧрд╣ рд▓реЗрддрд╛ рд╣реИ

рдХреЛ рдирд┐рд░реНрдорд┐рдд 15 рдлрд╝рд░ре░ 2017  ┬╖  5рдЯрд┐рдкреНрдкрдгрд┐рдпрд╛рдБ  ┬╖  рд╕реНрд░реЛрдд: nltk/nltk

Word_tokenize рдлрд╝рдВрдХреНрд╢рди рдХрд╛ рдЙрдкрдпреЛрдЧ рдХрд░рддреЗ рд╕рдордп рдЙрджреНрдзрд░рдг рдЪрд┐рд╣реНрдиреЛрдВ рдХреЛ рдЕрд▓рдЧ-рдЕрд▓рдЧ рдЙрджреНрдзрд░рдг рдЪрд┐рд╣реНрдиреЛрдВ рд╕реЗ рдмрджрд▓ рджрд┐рдпрд╛ рдЬрд╛рддрд╛ рд╣реИред

рдЙрджрд╛рд╣рд░рдг (рдЬрд░реНрдорди):

import nltk
sentence = "\"Ja.\"" # sentence[0] = "
tokens = nltk.word_tokenize(sentence) #tokens[0] = ``
print(tokens[0] == sentence[0]) # Prints false.

рдХреНрдпрд╛ рдпрд╣ рдПрдХ рдмрдЧ рд╣реИ рдпрд╛ рдЗрд╕ рд╡реНрдпрд╡рд╣рд╛рд░ рдХреЗ рдкреАрдЫреЗ рдХреЛрдИ рддрд░реНрдХ рд╣реИ?

рд╕рдмрд╕реЗ рдЙрдкрдпреЛрдЧреА рдЯрд┐рдкреНрдкрдгреА

@mwess рдХреБрдЫ рдЬрд╛рдБрдЪ рдХреЗ рдмрд╛рдж, " рд╕реЗ `` рдореЗрдВ рд░реВрдкрд╛рдВрддрд░рдг рдореВрд▓ рдкреЗрди рдЯреНрд░реАрдмреИрдВрдХ рд╢рдмреНрдж рдЯреЛрдХрдирд┐рдЬрд╝рд░ рдХрд╛ рдПрдХ рдЖрд░реНрдЯрд┐рдлреИрдХреНрдЯ рд╣реИред

рдпрд╣ рдХреЗрд╡рд▓ рддрдм рд╣реЛрддрд╛ рд╣реИ рдЬрдм рдбрдмрд▓ рдХреЛрдЯреНрд╕ рд╣реЛрддреЗ рд╣реИрдВ, рд░реЗрдЧреЗрдХреНрд╕ рдирд┐рдпрдо рдЬреЛ рдкреНрд░рддрд┐рд╕реНрдерд╛рдкрди рдХрд░рддреЗ рд╣реИрдВ https://github.com/nltk/nltk/blob/develop/nltk/tokenize/treebank.py#L49 рд╣реИрдВ

рдФрд░ рдЬрд╣рд╛рдВ рддрдХ тАЛтАЛрд╕рд┐рдВрдЧрд▓ рдХреЛрдЯреНрд╕ рдХрд╛ рд╕рд╡рд╛рд▓ рд╣реИ, рдЯреНрд░реАрдмреИрдВрдХ рдЯреЛрдХреЗрдирд╛рдЗрдЬрд╝рд░ STARTING_QUOTES рд░реЗрдЧреЗрдХреНрд╕ рд╣рдо рджреЗрдЦрддреЗ рд╣реИрдВ рдХрд┐ рдпрд╣ рджрд┐рд╢рд╛рддреНрдордХрддрд╛ рдХрд╛ рд╕рдВрдХреЗрдд рдирд╣реАрдВ рджреЗрддрд╛ рд╣реИред рдореБрдЭреЗ рд▓рдЧрддрд╛ рд╣реИ рдХрд┐ рдЗрд╕реЗ рдкреЗрди рдЯреНрд░реАрдмреИрдВрдХ рдПрдиреЛрдЯреЗрд╢рди рдХреЗ рдЕрдиреБрд░реВрдк рд░рдЦрд╛ рдЧрдпрд╛ рд╣реИред

рдореБрдЭреЗ рдЙрдореНрдореАрдж рд╣реИ рдХрд┐ рд╕реНрдкрд╖реНрдЯреАрдХрд░рдг рдорджрдж рдХрд░рддрд╛ рд╣реИред

рд╕рднреА 5 рдЯрд┐рдкреНрдкрдгрд┐рдпрд╛рдБ

рд╣рд╛рдВ, рдпрд╣ рдЕрдкреЗрдХреНрд╖рд┐рдд рдЖрдЙрдЯрдкреБрдЯ рд╣реИред рдбрдмрд▓ рдХреЛрдЯреНрд╕ рд╡рд┐рд░рд╛рдо рдЪрд┐рд╣реНрди рд╕реНрдкрд╖реНрдЯ рд░реВрдк рд╕реЗ рдбрдмрд▓ рдХреЛрдЯреНрд╕ рдЦреЛрд▓рдиреЗ рдФрд░ рдмрдВрдж рдХрд░рдиреЗ рдХреЛ рджрд░реНрд╢рд╛рдиреЗ рдХреЗ рд▓рд┐рдП рдмрджрд▓рддреЗ рд╣реИрдВред рд╢реБрд░реБрдЖрддреА " рдХреЛ 2x рдмреИрдХрдЯрд┐рдХреНрд╕ рдореЗрдВ рдмрджрд▓ рджрд┐рдпрд╛ рдЬрд╛рддрд╛ рд╣реИ рдФрд░ 2x рд╕рд┐рдВрдЧрд▓ рдХреЛрдЯреНрд╕ рдореЗрдВ рдмрдВрдж рдХрд░ рджрд┐рдпрд╛ рдЬрд╛рддрд╛ рд╣реИред

>>> from nltk import word_tokenize
>>> sent = '"this is a sentence inside double quotes."'
>>> word_tokenize(sent)
['``', 'this', 'is', 'a', 'sentence', 'inside', 'double', 'quotes', '.', "''"]
>>> word_tokenize(sent)[0]
'``'

>>> len(word_tokenize(sent)[0])
2
>>> word_tokenize(sent)[0] == '`'*2
True

>>> len(word_tokenize(sent)[-1])
2
>>> word_tokenize(sent)[-1] == "'" * 2
True

рдореБрдЭреЗ рдпрдХреАрди рдирд╣реАрдВ рд╣реИ рдХрд┐ рд╡реНрдпрд╡рд╣рд╛рд░ рдХрд╛ рдХрд╛рд░рдг рдХреНрдпрд╛ рд╣реИред рд╕рдВрднрд╡рддрдГ, рдЙрджреНрдШрд╛рдЯрди/рд╕рдорд╛рдкрди рдЙрджреНрдзрд░рдгреЛрдВ рдХреА рдкрд╣рдЪрд╛рди рдХрд░рддреЗ рд╕рдордп рдпрд╣ рд╕реНрдкрд╖реНрдЯ рд╣реЛрдирд╛ рдЪрд╛рд╣рд┐рдПред

рд╕реНрдкрд╖реНрдЯреАрдХрд░рдг рдХреЗ рд▓рд┐рдП рдзрдиреНрдпрд╡рд╛рджред
рд▓реЗрдХрд┐рди рдЬрдм рдореИрдВ рдбрдмрд▓ рдХреЛрдЯреНрд╕ рдХреЛ рдПрдХ (рдпрд╛ рджреЛ) рд╕рд┐рдВрдЧрд▓ рдХреЛрдЯреНрд╕ рдпрд╛ рдмреИрдХрдЯрд┐рдХреНрд╕ рдХреЗ рд╕рд╛рде рдмрджрд▓рддрд╛ рд╣реВрдВ рддреЛ рдпрд╣ рд╡реНрдпрд╡рд╣рд╛рд░ рдирд╣реАрдВ рд╣реЛрддрд╛ рд╣реИред
рдФрд░ рдореБрдЭреЗ рд▓рдЧрддрд╛ рд╣реИ рдХрд┐ рдпрд╣ рдереЛрдбрд╝рд╛ рдЕрдЬреАрдм рд╣реИ рдХрд┐ рдЯреЛрдХрдирдирд╛рдЗрдЬрд╝рд░ рдореВрд▓ рдкрд╛рда рдХреЗ рдХреБрдЫ рд╣рд┐рд╕реНрд╕реЛрдВ рдХреЛ рдмрджрд▓ рджреЗрддрд╛ рд╣реИ, рдХреНрдпреЛрдВрдХрд┐ рдЗрд╕рд╕реЗ рд╕рдорд╕реНрдпрд╛рдПрдВ рд╣реЛ рд╕рдХрддреА рд╣реИрдВ рдФрд░ рдпрд╣ рд╡рд╛рд╕реНрддрд╡ рдореЗрдВ рдкрд╛рд░рджрд░реНрд╢реА рдирд╣реАрдВ рд╣реИред

рдореБрдЭреЗ рд▓рдЧрддрд╛ рд╣реИ рдХрд┐ рдореБрдЭреЗ рдЗрд╕реЗ рдзреНрдпрд╛рди рдореЗрдВ рд░рдЦрдирд╛ рд╣реЛрдЧрд╛, рд▓реЗрдХрд┐рди рдореИрдВ рдкрд╕рдВрдж рдХрд░реВрдВрдЧрд╛ рдХрд┐ рд╕реНрдЯреНрд░рд┐рдВрдЧ рдХреЗ рдореВрд▓ рддрддреНрд╡ рд╡рд╣реА рд░рд╣реЗрдВред

@mwess рдХреБрдЫ рдЬрд╛рдБрдЪ рдХреЗ рдмрд╛рдж, " рд╕реЗ `` рдореЗрдВ рд░реВрдкрд╛рдВрддрд░рдг рдореВрд▓ рдкреЗрди рдЯреНрд░реАрдмреИрдВрдХ рд╢рдмреНрдж рдЯреЛрдХрдирд┐рдЬрд╝рд░ рдХрд╛ рдПрдХ рдЖрд░реНрдЯрд┐рдлреИрдХреНрдЯ рд╣реИред

рдпрд╣ рдХреЗрд╡рд▓ рддрдм рд╣реЛрддрд╛ рд╣реИ рдЬрдм рдбрдмрд▓ рдХреЛрдЯреНрд╕ рд╣реЛрддреЗ рд╣реИрдВ, рд░реЗрдЧреЗрдХреНрд╕ рдирд┐рдпрдо рдЬреЛ рдкреНрд░рддрд┐рд╕реНрдерд╛рдкрди рдХрд░рддреЗ рд╣реИрдВ https://github.com/nltk/nltk/blob/develop/nltk/tokenize/treebank.py#L49 рд╣реИрдВ

рдФрд░ рдЬрд╣рд╛рдВ рддрдХ тАЛтАЛрд╕рд┐рдВрдЧрд▓ рдХреЛрдЯреНрд╕ рдХрд╛ рд╕рд╡рд╛рд▓ рд╣реИ, рдЯреНрд░реАрдмреИрдВрдХ рдЯреЛрдХреЗрдирд╛рдЗрдЬрд╝рд░ STARTING_QUOTES рд░реЗрдЧреЗрдХреНрд╕ рд╣рдо рджреЗрдЦрддреЗ рд╣реИрдВ рдХрд┐ рдпрд╣ рджрд┐рд╢рд╛рддреНрдордХрддрд╛ рдХрд╛ рд╕рдВрдХреЗрдд рдирд╣реАрдВ рджреЗрддрд╛ рд╣реИред рдореБрдЭреЗ рд▓рдЧрддрд╛ рд╣реИ рдХрд┐ рдЗрд╕реЗ рдкреЗрди рдЯреНрд░реАрдмреИрдВрдХ рдПрдиреЛрдЯреЗрд╢рди рдХреЗ рдЕрдиреБрд░реВрдк рд░рдЦрд╛ рдЧрдпрд╛ рд╣реИред

рдореБрдЭреЗ рдЙрдореНрдореАрдж рд╣реИ рдХрд┐ рд╕реНрдкрд╖реНрдЯреАрдХрд░рдг рдорджрдж рдХрд░рддрд╛ рд╣реИред

рдЖрдкрдХрд╛ рдмрд╣реБрдд рдмрд╣реБрдд рдзрдиреНрдпрд╡рд╛рджред рдпрд╣ рд╡рд╛рд╕реНрддрд╡ рдореЗрдВ рдмрд╣реБрдд рдорджрдж рдХрд░рддрд╛ рд╣реИред

рдХрдИ рдЕрдиреБрдкреНрд░рдпреЛрдЧреЛрдВ рдореЗрдВ рдореВрд▓ рдкрд╛рда рдХреЛ рдмрджрд▓рдиреЗ рдХреА рдЕрдиреБрд╢рдВрд╕рд╛ рдирд╣реАрдВ рдХреА рдЬрд╛рддреА рд╣реИред рдореЗрд░реА рдЗрдЪреНрдЫрд╛ рд╣реИ рдХрд┐ word_tokenize рдореЗрдВ рдкрд╛рда рдХреЛ рдмрджрд▓рдирд╛ рдмрдВрдж рдХрд░рдиреЗ рдХреЗ рд▓рд┐рдП рдПрдХ рдзреНрд╡рдЬ рд╣реЛред

рдХреНрдпрд╛ рдпрд╣ рдкреГрд╖реНрда рдЙрдкрдпреЛрдЧреА рдерд╛?
0 / 5 - 0 рд░реЗрдЯрд┐рдВрдЧреНрд╕

рд╕рдВрдмрдВрдзрд┐рдд рдореБрджреНрджреЛрдВ

vezeli picture vezeli  ┬╖  3рдЯрд┐рдкреНрдкрдгрд┐рдпрд╛рдБ

talbaumel picture talbaumel  ┬╖  4рдЯрд┐рдкреНрдкрдгрд┐рдпрд╛рдБ

DavidNemeskey picture DavidNemeskey  ┬╖  4рдЯрд┐рдкреНрдкрдгрд┐рдпрд╛рдБ

alvations picture alvations  ┬╖  4рдЯрд┐рдкреНрдкрдгрд┐рдпрд╛рдБ

goodmami picture goodmami  ┬╖  4рдЯрд┐рдкреНрдкрдгрд┐рдпрд╛рдБ