Nltk: 감지 ν‚€λ₯Ό μ‚¬μš©ν•˜μ—¬ Synset κ°œμ²΄μ— μ•‘μ„ΈμŠ€ν•˜λŠ” κΈ°λŠ₯

에 λ§Œλ“  2018λ…„ 01μ›” 10일  Β·  4μ½”λ©˜νŠΈ  Β·  좜처: nltk/nltk

놓쳀을 μˆ˜λ„ μžˆμ§€λ§Œ μ„ΌμŠ€ ν‚€ μ—μ„œ NLTK μ›Œλ“œλ„· μΈν„°νŽ˜μ΄μŠ€μ—μ„œ Synset κ°œμ²΄μ— μ•‘μ„ΈμŠ€ν•˜λŠ” κΈ°λŠ₯이 μžˆμŠ΅λ‹ˆκΉŒ?

μ—†λŠ” 경우 nltk.corpus.wordnet μ—μ„œ 이λ₯Ό 달성할 수 μžˆλŠ” ν•¨μˆ˜λ₯Ό λ…ΈμΆœν•  수 μžˆμŠ΅λ‹ˆκΉŒ? 예: https://stackoverflow.com/questions/48170666/how-to-get-the-gloss-given-sense-key-using-nltk-wordnet/

μ΄μƒμ μœΌλ‘œλŠ” λ‹€μŒμ„ μ‚¬μš©ν•˜μ—¬ Synset κ°œμ²΄μ— μ•‘μ„ΈμŠ€ν•˜λŠ” κΈ°λŠ₯을 κ°–λŠ” 것이 μ’‹μŠ΅λ‹ˆλ‹€.

  1. offset-pos , 예: 1433493-a -> Synset('long.a.02')
  2. sense_key , 예: long%3:00:02:: -> Synset('long.a.02')

ν˜„μž¬ (1)에 λŒ€ν•œ synset_from_pos_and_offset() κ°€ μžˆμŠ΅λ‹ˆλ‹€.

Synset('long.a.02') λ₯Ό λ°˜ν™˜ν•˜κΈ° μœ„ν•΄ λ‹€μŒ 쀄을 μ½λŠ” 또 λ‹€λ₯Έ ν•¨μˆ˜( _synset_from_pos_and_line )κ°€ μžˆμŠ΅λ‹ˆλ‹€.

01433493 00 a 01 long 1 016 = 05129201 n 0000 + 05133287 n 0101 ! 01436003 a 0101 & 01434007 a 0000 & 01434218 a 0000 & 01434530 a 0000 & 01434717 a 0000 & 01434841 a 0000 & 01434966 a 0000 & 01435060 a 0000 & 01435189 a 0000 & 01435290 a 0000 & 01435399 a 0000 & 01435507 a 0000 & 01435675 a 0000 & 01435891 a 0000 | primarily spatial sense; of relatively great or greater than average spatial extension or extension as specified; "a long road"; "a long distance"; "contained many long words"; "ten miles long" 

κ·ΈλŸ¬λ‚˜ 그것은 감각의 μ—΄μ‡ κ°€ μ•„λ‹™λ‹ˆλ‹€.

corpus enhancement goodfirstbug nice idea wordnet

κ°€μž₯ μœ μš©ν•œ λŒ“κΈ€

μœ λž˜μ—μ„œ μ œμ•ˆ κΈ°λŠ₯을 κ΅¬ν˜„ν•˜μ§€λ§Œ, μ˜¬λ°”λ₯Έ 감각에 λ§€ν•‘ν•˜λŠ” 것 같지 μ•Šμ•˜μ–΄μš” - 예λ₯Ό λ“€μ–΄, synset_from_sense_key('afraid%3:00:00::') λ°˜ν™˜ afraid.a.04 λŒ€μ‹  afraid.a.01 . 이 λ¬Έμ œλŠ” λ‹€λ₯Έ POS에도 ν™•μž₯λ©λ‹ˆλ‹€. (μ„ΌμŠ€ ν‚€λŠ” Wordnet의 온라인 μΈν„°νŽ˜μ΄μŠ€ μ—μ„œ μ–»μ—ˆμŠ΅λ‹ˆλ‹€)

λŒ€μ‹  SemCor λ¬Έμ„œμ— ν‘œμ‹œλœ 방법을 μ‚¬μš©ν•˜λ©΄ μ˜¬λ°”λ₯΄κ²Œ λ§€ν•‘λ˜λŠ” κ²ƒμ²˜λŸΌ λ³΄μž…λ‹ˆλ‹€. ν˜„μž¬ lemma_from_key(key) ν•¨μˆ˜κ°€ 감지 킀와 μœ μ‚¬ν•œ 것을 μ·¨ν•˜λŠ” κ²ƒμœΌλ‘œ λ³΄μž…λ‹ˆλ‹€. κ·ΈλŸ¬λ‚˜ lemma_from key(key) λŠ” ν˜•μš©μ‚¬ μœ„μ„±μ„ μ§€μ›ν•˜μ§€ μ•ŠμŠ΅λ‹ˆλ‹€(예: afraid%3:00:02:concerned:00 ). lemma_from_key(key) μ£Όμœ„μ— 래퍼λ₯Ό κ΅¬ν˜„ν•˜μ—¬ 이 문제λ₯Ό μˆ˜μ •ν•˜κ³  Synset λ°˜ν™˜ν•  수 μžˆμŠ΅λ‹ˆλ‹€.

λͺ¨λ“  4 λŒ“κΈ€

이 μž‘μ—…μ„ ν•˜κ³  μ‹ΆμŠ΅λ‹ˆλ‹€!

@craaaa 닡변이 λŠ¦μ–΄ μ£„μ†‘ν•©λ‹ˆλ‹€. μž μ‹œ 자리λ₯Ό λΉ„

자유둭게 μž‘μ—…ν•˜κ³  λ‚˜μ€‘μ— PR을 μž‘μ„±ν•˜μ‹­μ‹œμ˜€.
P/S: 아무것도 κΉ¨μ§€λŠ” 것에 λŒ€ν•΄ κ±±μ •ν•˜μ§€ λ§ˆμ‹­μ‹œμ˜€. μ½”λ“œλ₯Ό λ³‘ν•©ν•˜κΈ° 전에 확인 및 κ²€ν† κ°€ μžˆμ„ κ²ƒμž…λ‹ˆλ‹€.

μœ λž˜μ—μ„œ μ œμ•ˆ κΈ°λŠ₯을 κ΅¬ν˜„ν•˜μ§€λ§Œ, μ˜¬λ°”λ₯Έ 감각에 λ§€ν•‘ν•˜λŠ” 것 같지 μ•Šμ•˜μ–΄μš” - 예λ₯Ό λ“€μ–΄, synset_from_sense_key('afraid%3:00:00::') λ°˜ν™˜ afraid.a.04 λŒ€μ‹  afraid.a.01 . 이 λ¬Έμ œλŠ” λ‹€λ₯Έ POS에도 ν™•μž₯λ©λ‹ˆλ‹€. (μ„ΌμŠ€ ν‚€λŠ” Wordnet의 온라인 μΈν„°νŽ˜μ΄μŠ€ μ—μ„œ μ–»μ—ˆμŠ΅λ‹ˆλ‹€)

λŒ€μ‹  SemCor λ¬Έμ„œμ— ν‘œμ‹œλœ 방법을 μ‚¬μš©ν•˜λ©΄ μ˜¬λ°”λ₯΄κ²Œ λ§€ν•‘λ˜λŠ” κ²ƒμ²˜λŸΌ λ³΄μž…λ‹ˆλ‹€. ν˜„μž¬ lemma_from_key(key) ν•¨μˆ˜κ°€ 감지 킀와 μœ μ‚¬ν•œ 것을 μ·¨ν•˜λŠ” κ²ƒμœΌλ‘œ λ³΄μž…λ‹ˆλ‹€. κ·ΈλŸ¬λ‚˜ lemma_from key(key) λŠ” ν˜•μš©μ‚¬ μœ„μ„±μ„ μ§€μ›ν•˜μ§€ μ•ŠμŠ΅λ‹ˆλ‹€(예: afraid%3:00:02:concerned:00 ). lemma_from_key(key) μ£Όμœ„μ— 래퍼λ₯Ό κ΅¬ν˜„ν•˜μ—¬ 이 문제λ₯Ό μˆ˜μ •ν•˜κ³  Synset λ°˜ν™˜ν•  수 μžˆμŠ΅λ‹ˆλ‹€.

@craaaa. ν˜•μš©μ‚¬ μœ„μ„±μ—λŠ” μ—¬μ „νžˆ λ¬Έμ œκ°€ μžˆλ‹€κ³  μƒκ°ν•©λ‹ˆλ‹€. synset_from_sense_key ν•¨μˆ˜λ₯Ό μ‚¬μš©ν•˜λ €κ³  μ‹œλ„ν–ˆλŠ”λ° λ‹€μŒκ³Ό 같은 였λ₯˜κ°€ μžˆμŠ΅λ‹ˆλ‹€.

파일 "/home/izorar/anaconda3/lib/python3.7/site-packages/nltk/corpus/reader/wordnet.py", 라인 1356, synsetμ—μ„œ WordNetError(message % 보쑰정리) WordNetError: ν˜•μš©μ‚¬ μœ„μ„±μ΄ μš”μ²­λ˜μ—ˆμ§€λ§Œ 일반 보쑰 정리 'λ¨Όμ €'에 λŒ€ν•œ ν˜•μš©μ‚¬ 발견

였λ₯˜λ₯Ό μˆ˜μ •ν•˜λŠ” 방법에 λŒ€ν•œ 아이디어가 μžˆμŠ΅λ‹ˆκΉŒ?

이 νŽ˜μ΄μ§€κ°€ 도움이 λ˜μ—ˆλ‚˜μš”?
0 / 5 - 0 λ“±κΈ‰