从大型文本中过滤信息

https://stackoverflow.com/questions/6307450

26-10-2019
|

题

是否有最佳实践，算法或软件（需要允许许可的开源...）可以从文本机构中找到信息？我指的是：

在文本中查找所有电子邮件地址
找到所有城市的提及
找到所有国家的提及
找到所有URL
查找所有电话号码
找到所有提及的邮政编码...能够添加更多...

我听说RapidMiner应该能够这样进行文本挖掘，但是出于我的目的，AGPL不是可接受的许可。

有什么“标准”可以进行此类分析？

解决方案

阅读命名实体识别. 。你可以试试 Apache OpenNLP 或者 Apache Uima, ，两者都有Apache许可证。

其他提示

对于此类实体类型，您可以使用基于规则的NER工具 gexp.

许可以下： CC-BY-SA 和归因

不隶属于 StackOverflow