Question

Je suis à la recherche d'extraire les noms et lieux de très courtes rafales de l'exemple de texte

 "cardinals vs jays in toronto"
 " Daniel Nestor and Nenad Zimonjic play Jonas Bjorkman w/ Kevin Ullyett, paris time to be announced"
"jenson button - pole position, brawn-mercedes - monaco".

Ces données sont actuellement dans une base de données MySQL, et je (à peu près) ont un dossier distinct pour chaque athlète, bien que les noms sont parfois mal orthographié, etc.

Je voudrais extraire les athlètes et les lieux. Je travaille généralement en PHP, mais n'ont pas été en mesure de trouver une bibliothèque pour l'extraction d'entités (et je veux obtenir plus profondément dans certains et href="http://en.wikipedia.org/wiki/Machine_learning" rel="nofollow noreferrer"> ML dans l'avenir).

D'après ce que j'ai trouvé, LingPipe et

Était-ce utile?

La solution

Qu'est-ce que vous décrivez est reconnaissance entité nommée . Donc, je vous recommande de vérifier l'autre des questions concernant ce sujet si vous ne les avez pas déjà vu. Cette ressemble à la réponse la plus utile pour moi.

Je ne peux pas vraiment savoir si NLTK ou LingPipe est le mieux adapté à cette tâche, bien que de regarder les réponses, il semble qu'il y ait un bon nombre d'autres ressources écrites en Java.

L'un des avantages d'aller avec NLTK est que Python est très accessible en tant que langue. L'autre avantage est que le (qui est disponible gratuitement) NLTK livre offre une introduction à la fois Python et NLTK en même temps, ce qui serait utile pour vous.

Licencié sous: CC-BY-SA avec attribution
Non affilié à StackOverflow
scroll top