是否有最佳实践,算法或软件(需要允许许可的开源...)可以从文本机构中找到信息?我指的是:

  • 在文本中查找所有电子邮件地址
  • 找到所有城市的提及
  • 找到所有国家的提及
  • 找到所有URL
  • 查找所有电话号码
  • 找到所有提及的邮政编码...能够添加更多...

我听说RapidMiner应该能够这样进行文本挖掘,但是出于我的目的,AGPL不是可接受的许可。

有什么“标准”可以进行此类分析?

有帮助吗?

解决方案

阅读 命名实体识别. 。你可以试试 Apache OpenNLP 或者 Apache Uima, ,两者都有Apache许可证。

其他提示

对于此类实体类型,您可以使用基于规则的NER工具 gexp.

许可以下: CC-BY-SA归因
不隶属于 StackOverflow
scroll top