题
是否有最佳实践,算法或软件(需要允许许可的开源...)可以从文本机构中找到信息?我指的是:
- 在文本中查找所有电子邮件地址
- 找到所有城市的提及
- 找到所有国家的提及
- 找到所有URL
- 查找所有电话号码
- 找到所有提及的邮政编码...能够添加更多...
我听说RapidMiner应该能够这样进行文本挖掘,但是出于我的目的,AGPL不是可接受的许可。
有什么“标准”可以进行此类分析?
解决方案
阅读 命名实体识别. 。你可以试试 Apache OpenNLP 或者 Apache Uima, ,两者都有Apache许可证。
其他提示
对于此类实体类型,您可以使用基于规则的NER工具 gexp.
不隶属于 StackOverflow