Domanda

Sto cercando di estrarre i nomi e luoghi da molto brevi sequenze di testo di esempio

 "cardinals vs jays in toronto"
 " Daniel Nestor and Nenad Zimonjic play Jonas Bjorkman w/ Kevin Ullyett, paris time to be announced"
"jenson button - pole position, brawn-mercedes - monaco".

Questi dati è attualmente in un database MySQL, e io (più o meno) hanno un record separato per ogni atleta, anche se i nomi sono a volte scritte male, ecc.

Vorrei estrarre gli atleti e le posizioni. Di solito lavoro in PHP, ma non sono stati in grado di trovare una libreria per estrazione di entità (e mi può essere utile per ottenere più profondo in alcune NLP e ML in futuro).

Da quello che ho trovato, LingPipe e NLTK sembrano essere il più raccomandato, ma non riesco a capire se sia sarà davvero soddisfare il mio scopo, o se qualcos'altro sarebbe meglio.

Non ho programmato in Java o Python, quindi prima di iniziare imparare nuove lingue, io sto sperando di ottenere qualche consiglio su quale via devo seguire, o di altre raccomandazioni.

È stato utile?

Soluzione

Quello che stai descrivendo è nome entità riconoscimento . Così mi consiglia di verificare l'altra domande su questo argomento se non l'avete già visti. Questo appare come la risposta più utile per me.

Non posso commentare in realtà circa se NLTK o LingPipe è più adatto per questo compito, anche se dal guardare le risposte sembra che ci sia un bel paio di altre risorse scritte in Java.

Un vantaggio di andare con NLTK è che Python è molto accessibile come linguaggio. L'altro vantaggio è che il NLTK libro (che è disponibile gratuitamente) offre un'introduzione sia Python NLTK allo stesso tempo, che sarebbe utile per voi.

Autorizzato sotto: CC-BY-SA insieme a attribuzione
Non affiliato a StackOverflow
scroll top