Nltk: Verbnet μ½”νΌμŠ€κ°€ μ˜€λž˜λ˜μ—ˆμŠ΅λ‹ˆλ‹€.

에 λ§Œλ“  2018λ…„ 05μ›” 05일  Β·  13μ½”λ©˜νŠΈ  Β·  좜처: nltk/nltk

nltk 데이터 인덱슀 (https://raw.githubusercontent.com/nltk/nltk_data/gh-pages/index.xml)λŠ” 버전 2.1에 λŒ€ν•΄ verbnet λ₯Ό 가리 ν‚΅λ‹ˆλ‹€. μ΅œμ‹  verbnet μ •μ˜λŠ” 3.2μž…λ‹ˆλ‹€.

μ΅œμ‹  λ²„μ „μ—λŠ” ꡬ문 ꡬ쑰에 λŒ€ν•œ 더 λ§Žμ€ 정보λ₯Ό μ œκ³΅ν•˜λŠ” μ—…λ°μ΄νŠΈ 된 ν”„λ ˆμž„ μ„€λͺ…이 μžˆμŠ΅λ‹ˆλ‹€. 예λ₯Ό λ“€μ–΄, μ΅œμ‹  λ²„μ „μ—μ„œ future_having-13.3 클래슀의 ν”„λ ˆμž„μ— λŒ€ν•œ κΈ°λ³Έ μ„€λͺ…은 NP V NP-Dative NP 이며 ν”„λ ˆμž„μ˜ ꡬ쑰λ₯Ό (λͺ…사ꡬ, 동사, λͺ…사ꡬ (일), λͺ…사- ꡬ문) 버전 2.1μ—μ„œλŠ” Dative μž…λ‹ˆλ‹€.

bug corpus enhancement nltk_data

κ°€μž₯ μœ μš©ν•œ λŒ“κΈ€

@alvations
λ‚΄κ°€ μ‚¬μš©ν•˜λŠ” μš©λ„λ‘œ μž‘λ™ν•©λ‹ˆλ‹€. λ‚΄ μ½”λ“œλ₯Ό 보여 λ“œλ¦¬κ² μŠ΅λ‹ˆλ‹€.

import nltk
v3 = nltk.corpus.util.LazyCorpusLoader(
    'verbnet3', nltk.corpus.reader.verbnet.VerbnetCorpusReader,
    r'(?!\.).*\.xml')
v3.classids('add') # returns ['mix-22.1-2', 'multiply-108', 'say-37.7-1']

μž‘λ™ν•˜λ €λ©΄ μ—¬κΈ°μ—μ„œ verbnet3 을 ~/nltk_data/corpora~. When unzipped it should create a new folder ~ / nltk_data / corpora / verbnet3 which contains all the Verbnet3 definitions. Then you should be able to run the code above. Notice that for Verbnet 2 (the default) the code v3.classids ( 'add')`ν΄λ”μ—μ„œμ΄ νŒŒμΌμ„ μ••μΆ• ν•΄μ œν•˜λ©΄ 첫 번째 클래슀 (mix-22.1-2) 만 λ°˜ν™˜λ©λ‹ˆλ‹€.

기본적으둜 Verbnet3을 μ‚¬μš©ν•˜κ³  있기 λ•Œλ¬Έμ— λ‹€λ₯Έ APIλ₯Ό ν…ŒμŠ€νŠΈν•˜μ§€ μ•Šμ•˜μ§€λ§Œ classids λ©”μ„œλ“œλŠ” λͺ¨λ“  λ‹€λ₯Έ λ‹¨μ–΄μ—μ„œ ν…ŒμŠ€νŠΈλ˜μ—ˆμœΌλ©° λͺ¨λ‘ μž‘λ™ν•©λ‹ˆλ‹€. 이게 도움이 되길 λ°”λž€λ‹€!

λͺ¨λ“  13 λŒ“κΈ€

@agodbehere ,이 문제λ₯Όλ³΄κ³  ν•΄ μ£Όμ…”μ„œ κ°μ‚¬ν•©λ‹ˆλ‹€. 기쑴의 verbnet 2 λ§λ­‰μΉ˜ 리더가 verbnet 3 λ°μ΄ν„°μ—μ„œ μ€‘λ‹¨λœλ‹€λŠ” 것을 확인 ν–ˆμœΌλ―€λ‘œ λ‘˜ λ‹€ λ§λ­‰μΉ˜ μ»¬λ ‰μ…˜μ—μ„œ μ„œλ‘œ ν•¨κ»˜ μ‚΄μ•„μ•Όν•©λ‹ˆλ‹€.

λ‹€μŒ λ‹¨κ³„λŠ” λˆ„κ΅°κ°€κ°€ κΈ°μ‘΄ μ½”λ“œμ˜ 일뢀λ₯Ό 곡유 ν•  μˆ˜μžˆλŠ” ν•΄λ‹Ή μ½”νΌμŠ€ 리더 nltk.corpus.verbnet3 에 κΈ°μ—¬ν•˜λŠ” κ²ƒμž…λ‹ˆλ‹€.

μž μ‹œ λ™μ•ˆ λ‘˜ λ‹€ μ§€μ›ν•΄μ•Όν•©λ‹ˆλ‹€.

@stevenbird , κΈ°μ‘΄ μ½”νΌμŠ€ 리더λ₯Ό verbnet 2와 ν•¨κ»˜ μ‚¬μš©ν–ˆμ„ λ•Œ μ–΄λ–€

Verbnet 3에 λ¬Έμ œκ°€ μžˆμŠ΅λ‹ˆλ‹€. λ‹€λ₯Έ λ§λ­‰μΉ˜ 리더가 ν•„μš”ν•©λ‹ˆλ‹€.
κ·Έ.

Wed, 16 May 2018 10:45 am Andrew Godbehere [email protected]
썼닀 :

@stevenbird https://github.com/stevenbird , 무슨 μ€‘μš”ν•œ 사건을 ν–ˆμŠ΅λ‹ˆκΉŒ?
verbnet 2와 ν•¨κ»˜ κΈ°μ‘΄ λ§λ­‰μΉ˜ νŒλ…κΈ°λ₯Ό μ‚¬μš©ν•˜λŠ” 방법을 μ°ΎμœΌμ‹­λ‹ˆκΉŒ? λ‚˜λŠ” μ‹€ν–‰ν•˜μ§€ μ•Šμ•˜λ‹€
λ§λ­‰μΉ˜λ₯Ό μ—…λ°μ΄νŠΈ ν•œ ν›„ ν…ŒμŠ€νŠΈ μŠ€μœ„νŠΈ,ν•˜μ§€λ§Œ λ‚΄ μ‚¬μš© 사둀 (μš”μ²­
classids 및 ν”„λ ˆμž„), κΈ°μ‘΄ λ§λ­‰μΉ˜ λ¦¬λ”λŠ” 잘 μž‘λ™ν•©λ‹ˆλ‹€.

β€”
당신이 μ–ΈκΈ‰ λ˜μ—ˆκΈ° λ•Œλ¬Έμ— 이것을 λ°›κ³  μžˆμŠ΅λ‹ˆλ‹€.
이 이메일에 직접 λ‹΅μž₯ν•˜κ³  GitHubμ—μ„œ ν™•μΈν•˜μ„Έμš”.
https://github.com/nltk/nltk/issues/2015#issuecomment-389363521 λ˜λŠ” μŒμ†Œκ±°
μ‹€
https://github.com/notifications/unsubscribe-auth/AADYbsgbjtFTKsyamRPG0OpJuWnF3UJ0ks5ty33DgaJpZM4Tzc0d
.

@stevenbird @agodbehere μ•ˆλ…•ν•˜μ„Έμš”, μ €λŠ” CU Boulderμ—μ„œ VerbNet ν”„λ‘œμ νŠΈλ₯Ό μ§„ν–‰ν•˜κ³  있으며 VerbNet 3+ 용 μ½”νΌμŠ€ 리더λ₯Όμœ„ν•œ μ½”λ“œλ₯Ό μ œκ³΅ν•˜κ³  μœ μ§€ κ΄€λ¦¬ν•˜κ²Œλ˜μ–΄ κΈ°μ©λ‹ˆλ‹€.

@amosleokim : κ°μ‚¬ν•©λ‹ˆλ‹€, ν™˜μ˜ν•©λ‹ˆλ‹€!

여기에 verbnet (2) 및 verbnet3 데이터가 μžˆμŒμ„ μ•Œ 수 μžˆμŠ΅λ‹ˆλ‹€ .

μ—¬κΈ° 에 verbnet3 ν•­λͺ©μ„ μΆ”κ°€ ν•  것을 μ œμ•ˆ ν•©λ‹ˆλ‹€.

그런 λ‹€μŒ verbnet 및 verbnet3 λͺ¨λ‘λ₯Ό μ§€μ›ν•˜λ„λ‘ verbnet.py λ₯Ό ν™•μž₯ν•˜λŠ” 방법을 μ•Œμ•„ λ΄…λ‹ˆλ‹€.

μ–΄λ–»κ²Œ λ“€λ¦¬λ‚˜μš”? 두 가지λ₯Ό λ™μ‹œμ— μ§€μ›ν•΄μ•Όν•˜λ©° (ꢁ극적으둜) verbnet 2λ₯Ό μ‚¬μš©ν•˜μ§€ μ•ŠμŠ΅λ‹ˆλ‹€.

ν•„μš”ν•œ 경우 μ„ΈλΆ€ 사항을 λ…Όμ˜ ν•  μˆ˜μžˆλŠ” NLTK μ—¬μœ  채널이 μžˆμŠ΅λ‹ˆλ‹€. 감사!

@stevenbird μ €μ—κ²Œ 쒋은 μ†Œλ¦¬μž…λ‹ˆλ‹€! Slack 채널에 μ΄ˆλŒ€ μ½”λ“œλ₯Ό 보내 μ£Όμ‹œλ©΄ 핡심 λ‚΄μš©μ„ μ‹œμž‘ν•  수 μžˆλ„λ‘ κ³„μ†ν•˜κ² μŠ΅λ‹ˆλ‹€.

이 μ£Όμ œμ— λŒ€ν•œ 진전이 μžˆμŠ΅λ‹ˆκΉŒ? 연ꡬλ₯Ό μœ„ν•΄ verbnet을 μ‚¬μš©ν•˜λ €κ³ ν•˜λŠ”λ° classids λ©”μ„œλ“œμ—μ„œ 얻은 κ²°κ³Όκ°€ 이상해 λ³΄μž…λ‹ˆλ‹€ .

κ°μ‚¬ν•©λ‹ˆλ‹€ @stevenbird , 이전 버전이 문제의 원인 인 것 κ°™μŠ΅λ‹ˆλ‹€. verbnet3.zip을 μˆ˜λ™μœΌλ‘œ λ‹€μš΄λ‘œλ“œν•˜κ³  nltkμ—μžˆλŠ” verbnet 2.1 용 λ¦¬λ”λ‘œ 읽을 μˆ˜μžˆμ—ˆμŠ΅λ‹ˆλ‹€.

@salompas λ‹€μ‹œ ν™•μΈν•˜κ³  싢은 κ²ƒμ²˜λŸΌ NLTK의 verbnet APIκ°€ verbnet3μ—μ„œ μž‘λ™ν•©λ‹ˆκΉŒ?

@alvations
λ‚΄κ°€ μ‚¬μš©ν•˜λŠ” μš©λ„λ‘œ μž‘λ™ν•©λ‹ˆλ‹€. λ‚΄ μ½”λ“œλ₯Ό 보여 λ“œλ¦¬κ² μŠ΅λ‹ˆλ‹€.

import nltk
v3 = nltk.corpus.util.LazyCorpusLoader(
    'verbnet3', nltk.corpus.reader.verbnet.VerbnetCorpusReader,
    r'(?!\.).*\.xml')
v3.classids('add') # returns ['mix-22.1-2', 'multiply-108', 'say-37.7-1']

μž‘λ™ν•˜λ €λ©΄ μ—¬κΈ°μ—μ„œ verbnet3 을 ~/nltk_data/corpora~. When unzipped it should create a new folder ~ / nltk_data / corpora / verbnet3 which contains all the Verbnet3 definitions. Then you should be able to run the code above. Notice that for Verbnet 2 (the default) the code v3.classids ( 'add')`ν΄λ”μ—μ„œμ΄ νŒŒμΌμ„ μ••μΆ• ν•΄μ œν•˜λ©΄ 첫 번째 클래슀 (mix-22.1-2) 만 λ°˜ν™˜λ©λ‹ˆλ‹€.

기본적으둜 Verbnet3을 μ‚¬μš©ν•˜κ³  있기 λ•Œλ¬Έμ— λ‹€λ₯Έ APIλ₯Ό ν…ŒμŠ€νŠΈν•˜μ§€ μ•Šμ•˜μ§€λ§Œ classids λ©”μ„œλ“œλŠ” λͺ¨λ“  λ‹€λ₯Έ λ‹¨μ–΄μ—μ„œ ν…ŒμŠ€νŠΈλ˜μ—ˆμœΌλ©° λͺ¨λ‘ μž‘λ™ν•©λ‹ˆλ‹€. 이게 도움이 되길 λ°”λž€λ‹€!

@Salompas μ•ˆλ…•ν•˜μ„Έμš”, μ†”λ£¨μ…˜μ— κ°μ‚¬λ“œλ¦½λ‹ˆλ‹€! 'verbnet3'은 μ–΄λ–€ λ²„μ „μ˜ verbnet3μž…λ‹ˆκΉŒ? 3.3 λ˜λŠ” 3.2 λ²„μ „μž…λ‹ˆκΉŒ?

@Salompas μ•ˆλ…•ν•˜μ„Έμš”, μ†”λ£¨μ…˜μ— κ°μ‚¬λ“œλ¦½λ‹ˆλ‹€! 'verbnet3'은 μ–΄λ–€ λ²„μ „μ˜ verbnet3μž…λ‹ˆκΉŒ? 3.3 λ˜λŠ” 3.2 λ²„μ „μž…λ‹ˆκΉŒ?

μ•ˆλ…•ν•˜μ„Έμš” @ songhee-kim, μž‘μ—… ν•œ 지 2 년이 λ˜μ—ˆκΈ° λ•Œλ¬Έμ— μ •ν™•νžˆ μ–΄λ–€ 버전을 가지고 μžˆλŠ”μ§€ λͺ¨λ₯΄κ² μŠ΅λ‹ˆλ‹€.

이 νŽ˜μ΄μ§€κ°€ 도움이 λ˜μ—ˆλ‚˜μš”?
0 / 5 - 0 λ“±κΈ‰

κ΄€λ ¨ 문제

mwess picture mwess  Β·  5μ½”λ©˜νŠΈ

zdog234 picture zdog234  Β·  3μ½”λ©˜νŠΈ

alvations picture alvations  Β·  4μ½”λ©˜νŠΈ

stevenbird picture stevenbird  Β·  3μ½”λ©˜νŠΈ

BLKSerene picture BLKSerene  Β·  4μ½”λ©˜νŠΈ