Nltk: NgramModel рдЕрдм рдЙрдкрд▓рдмреНрдз рдирд╣реАрдВ рд╣реИ?

рдХреЛ рдирд┐рд░реНрдорд┐рдд 23 рдЕрдЧре░ 2014  ┬╖  13рдЯрд┐рдкреНрдкрдгрд┐рдпрд╛рдБ  ┬╖  рд╕реНрд░реЛрдд: nltk/nltk

рдирдорд╕реНрддреЗ,

рдореИрдВ рддреНрд░рд┐-рдЧреНрд░рд╛рдо рдореЙрдбрд▓рд┐рдВрдЧ рдХреЗ рд▓рд┐рдП nltk.models.NgramModel рдХрд╛ рдЙрдкрдпреЛрдЧ рдХрд░рддрд╛ рдерд╛ред рдореИрдВ nltk 3 рдХреА рдПрдХ рдирдИ рд╕реНрдерд╛рдкрдирд╛ рдХреЗ рд╕рд╛рде рдкреБрд░рд╛рдиреЗ рдХреЛрдб рдХреЛ рдЪрд▓рд╛рдиреЗ рдХреА рдХреЛрд╢рд┐рд╢ рдХрд░ рд░рд╣рд╛ рд╣реВрдВ рдФрд░ рдРрд╕рд╛ рд▓рдЧрддрд╛ рд╣реИ рдХрд┐ рдореЙрдбреНрдпреВрд▓ рдЕрдм рдЙрдкрд▓рдмреНрдз рдирд╣реАрдВ рд╣реИред рдореИрдВрдиреЗ nltk.download() рдХреЗ рдорд╛рдзреНрдпрдо рд╕реЗ рд╕рднреА рдореЙрдбрд▓ рдФрд░ рдкреИрдХреЗрдЬ рдбрд╛рдЙрдирд▓реЛрдб рдХрд░ рд▓рд┐рдП рд╣реИрдВ рдФрд░ рдореБрдЭреЗ рдЕрднреА рднреА рдорд┐рд▓ рд░рд╣рд╛ рд╣реИ
"рдореЙрдбрд▓ рдирд╛рдо рдХрд╛ рдХреЛрдИ рдореЙрдбреНрдпреВрд▓ рдирд╣реАрдВ"
рдЬрдм рдореИрдВ рдХреЛрд╢рд┐рд╢ рдХрд░рддрд╛ рд╣реВрдБ
nltk.model рд╕реЗ NgramModel рдЖрдпрд╛рдд рдХрд░реЗрдВ

рдХреЛрдИ рдорджрдж?

рдзрдиреНрдпрд╡рд╛рдж

рд╕рдмрд╕реЗ рдЙрдкрдпреЛрдЧреА рдЯрд┐рдкреНрдкрдгреА

рдореИрдВ рдЕрдЧрд▓реЗ рдХреБрдЫ рджрд┐рдиреЛрдВ рдореЗрдВ NgramModel рдХреЗ рдПрдХ рдкреНрд░рддрд┐рдЧрдорди/рдЗрдХрд╛рдИ рдкрд░реАрдХреНрд╖рдг рд╕рдВрд╕реНрдХрд░рдг рдХреЛ рдЖрдЧреЗ рдмрдврд╝рд╛рдКрдВрдЧрд╛ред

рд╕рднреА 13 рдЯрд┐рдкреНрдкрдгрд┐рдпрд╛рдБ

рд╕реБрдиреЛ! рд╣рд╛рдБ, рд╡реЗ рд╡рд░реНрддрдорд╛рди рдореЗрдВ рдорд╛рд╕реНрдЯрд░ рд╢рд╛рдЦрд╛ рдореЗрдВ рдирд╣реАрдВ рд╣реИрдВ -- рдХреБрдЫ рдмрдХрд╛рдпрд╛ рдмрдЧ рд╣реИрдВ рдЬрд┐рдиреНрд╣реЗрдВ рд╣рдо рдЙрдиреНрд╣реЗрдВ рдлрд┐рд░ рд╕реЗ рд╢рд╛рдорд┐рд▓ рдХрд░рдиреЗ рд╕реЗ рдкрд╣рд▓реЗ рдареАрдХ рдХрд░рдирд╛ рдЪрд╛рд╣реЗрдВрдЧреЗред рдпреЗ рдмрдЧ рд╣реИрдВ: https://github.com/nltk/nltk/labels/model

рдпрджрд┐ рдЖрдк рд╡рд░реНрддрдорд╛рди рдореЗрдВ рдЬреАрдердм рд╕реЗ рд╕рдВрд╕реНрдХрд░рдг рдХрд╛ рдЙрдкрдпреЛрдЧ рдХрд░ рд░рд╣реЗ рд╣реИрдВ, рддреЛ рдЖрдк "рдореЙрдбрд▓" рд╢рд╛рдЦрд╛ рдореЗрдВ рд╕реНрд╡рд┐рдЪ рдХрд░ рд╕рдХрддреЗ рд╣реИрдВ, рдЬрд┐рд╕рдореЗрдВ рдПрдирдЧреНрд░рд╛рдордореЙрдбрд▓ рдХреЛрдб рд╢рд╛рдорд┐рд▓ рд╣реИ, рд╣рд╛рд▓рд╛рдВрдХрд┐ рдпрд╣ рд╡рд░реНрддрдорд╛рди рдореЗрдВ "рд╡рд┐рдХрд╛рд╕" рд╢рд╛рдЦрд╛ рдХреЗ рдкреАрдЫреЗ рдХрд╛рдлреА рдкреАрдЫреЗ рд╣реИ рдФрд░ рд╕рднреА рдирд╡реАрдирддрдо рдмрдЧ рдлрд┐рдХреНрд╕ рдирд╣реАрдВ рдЙрдард╛рдП рд╣реИрдВред

рдЙрдореНрдореАрдж рд╣реИ рдпреЗ рдорджрдж рдХрд░реЗрдЧрд╛!

рдзрдиреНрдпрд╡рд╛рдж рдПрд▓реЗрдХреНрд╕

рдЗрд╕ рдмрдЧ рдХреА рд╡рд░реНрддрдорд╛рди рд╕реНрдерд┐рддрд┐ рдХреНрдпрд╛ рд╣реИ?

рдореИрдВ рдЕрдЧрд▓реЗ рдХреБрдЫ рджрд┐рдиреЛрдВ рдореЗрдВ NgramModel рдХреЗ рдПрдХ рдкреНрд░рддрд┐рдЧрдорди/рдЗрдХрд╛рдИ рдкрд░реАрдХреНрд╖рдг рд╕рдВрд╕реНрдХрд░рдг рдХреЛ рдЖрдЧреЗ рдмрдврд╝рд╛рдКрдВрдЧрд╛ред

рдореБрдЭреЗ рдпреЛрдЧрджрд╛рди рджреЗрдиреЗ рдореЗрдВ рднреА рджрд┐рд▓рдЪрд╕реНрдкреА рд╣реИред

рдХреНрдпрд╛ рдпрд╣ рд╣рд▓ рд╣реЛ рдЧрдпрд╛ рд╣реИ? рдореИрдВ рдЕрднреА рднреА рдореЙрдбрд▓ рдЖрдпрд╛рдд рдирд╣реАрдВ рдХрд░ рд╕рдХрддрд╛

рдореИрдВ рдЕрднреА рднреА рд╕рдВрд╕реНрдХрд░рдг nltk-3.2.2 . рдореЗрдВ рдореЙрдбрд▓ рдЖрдпрд╛рдд рдирд╣реАрдВ рдХрд░ рд╕рдХрддрд╛

рдЗрд╕рдХреЗ рд╕рд╛рде рд╕реНрдерд╛рдкрд┐рдд:
pip3 рд╕реНрдерд╛рдкрд┐рдд рдХрд░реЗрдВ https://github.com/nltk/nltk/tarball/model

рд▓реЗрдХрд┐рди рдЕрдм рдореБрдЭреЗ рдПрдХ рдЕрд▓рдЧ рддреНрд░реБрдЯрд┐ рдорд┐рд▓реА рд╣реИ:
рдЖрдпрд╛рдд рддреНрд░реБрдЯрд┐: 'NgramModel' рдирд╛рдо рдЖрдпрд╛рдд рдирд╣реАрдВ рдХрд░ рд╕рдХрддрд╛

рдХреГрдкрдпрд╛ рд╕реНрд░реЛрдд рдХреЛрдб рджреЗрдЦреЗрдВ
рдореИрдВ рдПрдХ рдирдореВрдирд╛ рдХреЛрдб рдХрд░рддрд╛ рд╣реВрдВред
from nltk.model import MLENgramModel
from nltk.model import build_vocabulary
from nltk.model import count_ngrams
docs = [['a', 'b', 'c'], ['a', 'c', 'c']]
vocab = build_vocabulary(cutoff, *docs)
counter = count_ngrams(order, vocab, *docs)
model = MLENgramModel(counter)

nltk.model рдЕрднреА рднреА рдЙрдкрд▓рдмреНрдз рдирд╣реАрдВ рд╣реИред рдЕрдЬреАрдмред

@bjourne reworked рдореЙрдбреНрдпреВрд▓ рдЖрдпрд╛рдд рдпреЛрдЧреНрдп рд╣реЛрдирд╛ рдЪрд╛рд╣рд┐рдП nltk.lm ред рдПрдкреАрдЖрдИ рдмрджрд▓ рдЧрдпрд╛ рд╣реИ, рдореИрдВ рдЗрд╕рдХреЗ рд▓рд┐рдП рджрд╕реНрддрд╛рд╡реЗрдЬрд╝ рдкрдврд╝рдиреЗ рдХреА рдЕрдиреБрд╢рдВрд╕рд╛ рдХрд░рддрд╛ рд╣реВрдВ:

>>> from nltk import lm
>>> help(lm)

рдпрд╣ рдЕрднреА рднреА рд╣рд▓ рдирд╣реАрдВ рд╣реБрдЖ рд╣реИ?

рдЗрд╕реЗ рдкрд┐рдЫрд▓реЗ рд╕рд╛рд▓ рд╣рд▓ рдХрд┐рдпрд╛ рдЧрдпрд╛ рдерд╛, рдХреГрдкрдпрд╛ nltk.lm рджрд╕реНрддрд╛рд╡реЗрдЬрд╝ рджреЗрдЦреЗрдВ

рдХреНрдпрд╛ рдпрд╣ рдкреГрд╖реНрда рдЙрдкрдпреЛрдЧреА рдерд╛?
0 / 5 - 0 рд░реЗрдЯрд┐рдВрдЧреНрд╕

рд╕рдВрдмрдВрдзрд┐рдд рдореБрджреНрджреЛрдВ

talbaumel picture talbaumel  ┬╖  4рдЯрд┐рдкреНрдкрдгрд┐рдпрд╛рдБ

StarWang picture StarWang  ┬╖  5рдЯрд┐рдкреНрдкрдгрд┐рдпрд╛рдБ

alvations picture alvations  ┬╖  3рдЯрд┐рдкреНрдкрдгрд┐рдпрд╛рдБ

peterbe picture peterbe  ┬╖  5рдЯрд┐рдкреНрдкрдгрд┐рдпрд╛рдБ

stevenbird picture stevenbird  ┬╖  4рдЯрд┐рдкреНрдкрдгрд┐рдпрд╛рдБ