Question

J'ai une liste de mots et je souhaite la filtrer afin que seuls les noms de cette liste soient utilisés (Utilisation de Java). Pour ce faire, je cherche un moyen simple d’interroger une base de données de mots pour connaître leur type.

Ma question est la suivante: quiconque connaît-il une API de recherche de mots simple et gratuite qui me permettrait de trouver la classe d'un mot, pas nécessairement sa définition sémantique?

Merci!

Ben.

EDIT: Par classe du mot, je voulais dire «partie du discours», merci d’avoir éclairci cette question

Était-ce utile?

La solution

Type de mot? Tels que verbe, nom, adjectif, etc.? Si tel est le cas, vous rencontrerez peut-être le problème suivant: certains mots peuvent être utilisés de plusieurs manières. Par exemple: "Pouvez-vous m'échanger cette carte?", "C'était un mauvais échange".

Voir ce fil pour quelques suggestions.

Regardez cela aussi, cela semble pouvoir faire exactement ce que vous ' re cherche.

Autres conseils

Je pense que ce que vous recherchez, c'est la partie du discours (POS) d'un mot. En général, cela ne sera pas possible à déterminer, sauf dans le contexte d'une phrase. Il existe de nombreux mots pouvant contenir différentes parties potentielles du discours (par exemple, "banque" peut être utilisé comme verbe ou nom).

Vous pouvez utiliser un étiqueteur de point de vente pour obtenir les informations souhaitées. Toutefois, les marqueurs suivants de la partie de la parole supposent que vous balisez des mots dans une phrase anglaise bien structurée ...

  • Les OpenNLP sont généralement très performantes et publiées sous la licence LGPL. Il existe un tagueur de partie du discours pour l'anglais et quelques autres langues incluses dans la distribution. Allez simplement sur la page du projet pour obtenir le pot (et n'oubliez pas de télécharger également les modèles).

  • Il existe également le étiqueteur de partie du discours de Stanford , écrit en Java sous GPL. Je n'ai pas d'expérience directe avec cette bibliothèque, mais le laboratoire de traitement de la PNL de Stanford est généralement assez impressionnant.

Interroger une base de données de mots va poser le problème mentionné par Ben S., par exemple. est-ce plomb (v. montrer le chemin) ou plomb (n. Pb). Si vous souhaitez consacrer un peu de temps au problème, reportez-vous à la section Partie du balisage vocal. Il existe de bonnes informations dans un autre fil de discussion SO .

Pour l'anglais, vous pouvez utiliser WordNet avec l'une des API Java disponibles pour rechercher le catégorie lexicale d'un mot (appelé généralement la partie du discours en PNL) ). Utiliser un étiqueteur de point de vente dédié serait une autre option.

Licencié sous: CC-BY-SA avec attribution
Non affilié à StackOverflow
scroll top