파이썬 패턴 패키지의 Synsets로 교체하십시오

https://stackoverflow.com//questions/25057071

21-12-2019
|

문제

내 목표는 임의의 텍스트를 가져오고, 문장을 추출하고, 맨손으로, 맨손으로, 무작위로 nn 또는 vb 태그가 달린 단어를 그들의 흑인으로 바꾸는 시스템을 만드는 것입니다., 홀리 yony 또는 synonim뿐만 아니라 WordNet synset에서 유사한 단어와 함께.앞으로 많은 일이 있습니다. 그러나 나는 처음에는 문제가 있습니다.

이를 위해 패턴과 TextBlob 패키지를 사용합니다.이것은 내가 지금까지 한 일이다 ...

from pattern.web import URL, plaintext
from pattern.text import tokenize
from pattern.text.en import wordnet
from textblob import TextBlob
import string

s = URL('http://www.fangraphs.com/blogs/the-fringe-five-baseballs-most-compelling-fringe-prospects-35/#more-157570').download()
s = plaintext(s, keep=[])
secam = (tokenize(s, punctuation=""))
simica = secam[15].strip(string.punctuation)
simica = simica.replace(",", "")

simica = TextBlob(simica)
simicaTg = simica.words

synsimica = wordnet.synsets(simicaTg[3])[0]
djidja = synsimica.hyponyms()

이제는 모든 것이 내가 원하는 방식으로 작동하지만 i.e.e.e.e.e.e.E.E.E.E.E..e의 영론자는 djidja 객체이므로 불가능한 것으로 판명되며 어쨌든 그것을 조작 할 수 없습니다.

Hyponyms 목록에서보고 된 바로 그리한 단어를 추출하는 방법 (즉, Synset는 print(djidja[2])를 표시합니다 ... 이에 대한 Synset(u'bowler') 만 추출하는 방법)?

해결책

SYNSET이 동의어로 표시된 단어 목록 일뿐입니다.일몰을 감안할 때, 당신은 그것을 형성하는 단어를 추출 할 수 있습니다 :

from pattern.text.en import wordnet
s = wordnet.synsets('dog')[0] # a word can belong to many synsets, let's just use one for the sake of argument
print(s.synonyms)

이 출력 :

Out[14]: [u'dog', u'domestic dog', u'Canis familiaris']

하이퍼 니즈와 Hyponyronyms를 추출 할 수도 있습니다.

print(s.hypernyms())
Out[16]: [Synset(u'canine'), Synset(u'domestic animal')]
print(s.hypernyms()[0].synonyms)
Out[17]: [u'canine', u'canid']

라이센스 : CC-BY-SA ~와 함께 속성

제휴하지 않습니다 StackOverflow