テキストの大きな身体からの情報のフィルタリング
-
26-10-2019 - |
質問
テキストの本体から情報を見つけることができるベストプラクティス、アルゴリズム、またはソフトウェア(許容ライセンスが必要なオープンソース...)はありますか?私は言及しています:
- テキストですべてのメールアドレスを見つけます
- 都市のすべての言及を見つけます
- 状態に関するすべての言及を見つけます
- すべてのURLを見つけます
- 電話番号のすべての言及を見つけます
- zipcodesのすべての言及を見つけてください...さらに追加する能力があります...
RapidMinerはこのようなテキストマイニングを行うことができるはずだと聞いたが、AGPLは私の目的のために受け入れられるライセンスではない。
この種の分析を行うための「標準」はありますか?
解決
について読んでください 名前付きエンティティ認識. 。あなたが試すことができます apache opennlp また Apache uima, 、どちらもApacheライセンスを持っています。
他のヒント
このようなエンティティタイプについては、ルールベースのNERツールを使用できます GEXP.
所属していません StackOverflow