テキストの大きな身体からの情報のフィルタリング

質問

テキストの本体から情報を見つけることができるベストプラクティス、アルゴリズム、またはソフトウェア（許容ライセンスが必要なオープンソース...）はありますか？私は言及しています：

RapidMinerはこのようなテキストマイニングを行うことができるはずだと聞いたが、AGPLは私の目的のために受け入れられるライセンスではない。

この種の分析を行うための「標準」はありますか？

解決

について読んでください名前付きエンティティ認識. 。あなたが試すことができます apache opennlp また Apache uima, 、どちらもApacheライセンスを持っています。

他のヒント

このようなエンティティタイプについては、ルールベースのNERツールを使用できます GEXP.

ライセンス： CC-BY-SA と帰属

所属していません StackOverflow