word_tokenize ν¨μλ₯Ό μ¬μ©νλ©΄ λ°μ΄νκ° λ€λ₯Έ λ°μ΄νλ‘ λ°λλλ€.
μ(λ μΌμ΄):
import nltk
sentence = "\"Ja.\"" # sentence[0] = "
tokens = nltk.word_tokenize(sentence) #tokens[0] = ``
print(tokens[0] == sentence[0]) # Prints false.
μ΄κ²μ λ²κ·Έμ λκΉ μλλ©΄ μ΄ λμ λ€μ μ΄μ κ° μμ΅λκΉ?
μ, μμλλ μΆλ ₯μ
λλ€. ν°λ°μ΄ν ꡬλμ μ μ¬λ ν°λ°μ΄νμ λ«λ ν°λ°μ΄νλ₯Ό λͺ
μμ μΌλ‘ λνλ΄λλ‘ λ³κ²½λ©λλ€. μ¬λ "
λ 2x λ°±ν±μΌλ‘ λ³νλκ³ 2x μμλ°μ΄νλ‘ λ«νλλ€.
>>> from nltk import word_tokenize
>>> sent = '"this is a sentence inside double quotes."'
>>> word_tokenize(sent)
['``', 'this', 'is', 'a', 'sentence', 'inside', 'double', 'quotes', '.', "''"]
>>> word_tokenize(sent)[0]
'``'
>>> len(word_tokenize(sent)[0])
2
>>> word_tokenize(sent)[0] == '`'*2
True
>>> len(word_tokenize(sent)[-1])
2
>>> word_tokenize(sent)[-1] == "'" * 2
True
κ·Έλλ νλμ μ΄μ κ° λ¬΄μμΈμ§ μ λͺ¨λ₯΄κ² μ΅λλ€. μλ§λ μ¬λ/λ«λ λ°μ΄νλ₯Ό μλ³ν λ λͺ μμ μ΄μ΄μΌ ν©λλ€.
μ€λͺ
κ°μ¬ν©λλ€.
κ·Έλ¬λ ν°λ°μ΄νλ₯Ό νλ(λλ λ κ°)μ μμλ°μ΄νλ μλ°μ΄νλ‘ λ°κΎΈλ©΄ μ΄ λμμ΄ λ°μνμ§ μμ΅λλ€.
κ·Έλ¦¬κ³ ν ν¬λμ΄μ λ μλ³Έ ν
μ€νΈμ μΌλΆλ₯Ό μ ννλ κ²μ΄ λ¬Έμ λ₯Ό μΌμΌν¬ μ μκ³ μ€μ λ‘ ν¬λͺ
νμ§ μκΈ° λλ¬Έμ μ‘°κΈ μ΄μνλ€κ³ μκ°ν©λλ€.
λλ κ·Έκ²μ μΌλμ λμ΄μΌ ν κ² κ°μ§λ§ λ¬Έμμ΄μ μλ μμκ° λμΌνκ² μ μ§λλ κ²μ μ νΈν©λλ€.
@mwess λͺ κ°μ§ νμΈ ν "
μμ ``λ‘μ λ³νμ μλ penn treebank λ¨μ΄ ν ν¬λμ΄μ μ μΈκ³΅λ¬Όμ
λλ€.
ν°λ°μ΄νκ° μλ κ²½μ°μλ§ λ°μνλ©° λ체λ₯Ό μννλ μ κ·μ κ·μΉμ https://github.com/nltk/nltk/blob/develop/nltk/tokenize/treebank.py#L49μ λλ€.
κ·Έλ¦¬κ³ μμλ°μ΄νμ κ²½μ°, treebank ν ν¬λμ΄μ STARTING_QUOTES
μ κ·μμ λ°©ν₯μ±μ λνλ΄μ§ μλλ€λ κ²μ μ μ μμ΅λλ€. λλ μ΄κ²μ΄ Penn Treebank μ£Όμκ³Ό μΌκ΄μ±μ μ μ§νλ€κ³ μκ°ν©λλ€.
μ€λͺ μ΄ λμμ΄ λκΈ°λ₯Ό λ°λλλ€.
λ§€μ° κ°μ¬ν©λλ€. μ€μ λ‘ λ§μ λμμ΄ λ©λλ€.
λ§μ μμ© νλ‘κ·Έλ¨μμ μλ³Έ ν
μ€νΈλ₯Ό λ³κ²½νλ κ²μ κΆμ₯λμ§ μμ΅λλ€. word_tokenize
μ ν
μ€νΈ λ³κ²½μ λλ νλκ·Έκ° μμμΌλ©΄ ν©λλ€.
κ°μ₯ μ μ©ν λκΈ
@mwess λͺ κ°μ§ νμΈ ν
"
μμ ``λ‘μ λ³νμ μλ penn treebank λ¨μ΄ ν ν¬λμ΄μ μ μΈκ³΅λ¬Όμ λλ€.ν°λ°μ΄νκ° μλ κ²½μ°μλ§ λ°μνλ©° λ체λ₯Ό μννλ μ κ·μ κ·μΉμ https://github.com/nltk/nltk/blob/develop/nltk/tokenize/treebank.py#L49μ λλ€.
κ·Έλ¦¬κ³ μμλ°μ΄νμ κ²½μ°, treebank ν ν¬λμ΄μ
STARTING_QUOTES
μ κ·μμ λ°©ν₯μ±μ λνλ΄μ§ μλλ€λ κ²μ μ μ μμ΅λλ€. λλ μ΄κ²μ΄ Penn Treebank μ£Όμκ³Ό μΌκ΄μ±μ μ μ§νλ€κ³ μκ°ν©λλ€.μ€λͺ μ΄ λμμ΄ λκΈ°λ₯Ό λ°λλλ€.