質問

単語のリストがあり、それをフィルタリングして、その単語のリストの名詞のみを使用したい(Javaを使用)。これを行うには、単語のデータベースにタイプを照会する簡単な方法を探しています。

私の質問は、単語のクラスを見つけることができる無料の簡単な単語検索APIを知っているかどうかです。必ずしもその意味の定義ではありません。

ありがとう!

ベン。

編集:単語のクラスごとに、これをクリアしてくれて「品詞」を意味しました

役に立ちましたか?

解決

単語タイプ?動詞、名詞、形容詞など?その場合、いくつかの単語を複数の方法で使用できるという問題が発生する可能性があります。たとえば、「そのカードをトレードしてもらえますか?」、「悪いトレードでした」

いくつかの提案については、このスレッドをご覧ください。

これもご覧ください。これはまさにあなたがしたことをするようです探しています。

他のヒント

探しているのは単語の品詞(POS)です。一般に、文の文脈を除いて決定することはできません。いくつかの異なる品詞の潜在的な部分を持つことができる多くの単語があります(たとえば、「銀行」は動詞または名詞として使用できます)。

POSタガーを使用して、必要な情報を取得できます。ただし、次の品詞タガーは、構造化された英語の文章内の単語にタグを付けていると想定しています...

  • OpenNLP Javaライブラリは一般的に非常に優れており、LGPLでリリースされています。ディストリビューションには、英語用の品詞タガーと他のいくつかの言語が含まれています。プロジェクトページに移動して、jarを取得します(モデルをダウンロードすることも忘れないでください)。

  • スタンフォードの品詞タガーもあります。 GPLの下でJavaで書かれています。私はこのライブラリを直接使用したことはありませんが、スタンフォードNLPラボは一般的に非常に素晴らしいです。

単語のデータベースを照会すると、Ben S.が言及している問題が発生します。それはリード(v。方法を示すため)またはリード(n。Pb)です。問題に少し時間をかけたい場合は、品詞タグ付けをご覧ください。 別のSOスレッドにいくつかの良い情報があります。

英語の場合、利用可能なJava API のいずれかでWordNetを使用して、単語の字句カテゴリ(NLPでは最も一般的に品詞と呼ばれます) )。専用の POSタガーを使用することも別のオプションです。

ライセンス: CC-BY-SA帰属
所属していません StackOverflow
scroll top