Domanda

Ho un elenco di parole e voglio filtrarlo in modo da avere solo i nomi di quell'elenco di parole (Uso di Java). Per fare ciò sto cercando un modo semplice per interrogare un database di parole per il loro tipo.

La mia domanda è: qualcuno conosce un'API di ricerca di parole semplice e gratuita che mi consentirebbe di trovare la classe di una parola, non necessariamente la sua definizione semantica.

Grazie!

Ben.

EDIT: per classe della parola intendevo "parte del discorso" grazie per aver chiarito questo

È stato utile?

Soluzione

Tipo di parola? Come verbo, sostantivo, aggettivo, ecc? In tal caso, potresti riscontrare il problema che alcune parole possono essere utilizzate in più di un modo. Ad esempio: " Puoi scambiarmi quella carta? & Quot ;, " Quello era un cattivo scambio. & Quot;

Vedi questa discussione per alcuni suggerimenti.

Dai un'occhiata a anche questo , sembra che potrebbe fare esattamente quello che stai cercando.

Altri suggerimenti

Penso che ciò che stai cercando sia la parte del discorso (POS) di una parola. In generale ciò non sarà possibile determinare se non nel contesto di una frase. Ci sono molte parole che possono contenere diverse parti potenziali del discorso (ad esempio "banca" può essere usata come verbo o sostantivo).

È possibile utilizzare un tagger POS per ottenere le informazioni desiderate. Tuttavia, i seguenti tagger parte del discorso assumono che tu stia tag le parole all'interno di una frase inglese ben strutturata ...

  • Le OpenNLP le librerie Java sono generalmente molto buone e rilasciate sotto LGPL. C'è una parte del discorso tagger per l'inglese e alcune altre lingue incluse nella distribuzione. Basta andare alla pagina del progetto per ottenere il vaso (e non dimenticare di scaricare anche i modelli).

  • Esiste anche il Tagger parziale di Stanford , scritto in Java sotto GPL. Non ho avuto alcuna esperienza diretta con questa libreria, ma il laboratorio PNL di Stanford è generalmente piuttosto fantastico.

L'interrogazione di un database di parole porterà al problema menzionato da Ben S., ad es. è lead (v. per mostrare la strada) o lead (n. Pb). Se si desidera dedicare un po 'di tempo al problema, consultare la parte di tag vocale. Ci sono alcune buone informazioni in un'altra discussione SO .

Per l'inglese, è possibile utilizzare WordNet con una delle API Java disponibili per trovare categoria lessicale di una parola (che nella PNL è più comunemente chiamata parte del discorso ). L'uso di un tagger POS sarebbe un'altra opzione.

Autorizzato sotto: CC-BY-SA insieme a attribuzione
Non affiliato a StackOverflow
scroll top