Filtraggio informazioni dai grandi corpi di testo
-
26-10-2019 - |
Domanda
C'è una best practice, algoritmo o software (open source con una licenza permissiva necessaria ...) che può trovare informazioni dai corpi di testo? Mi riferisco a:
- trova tutti gli indirizzi di posta elettronica in un testo
- Trova tutte le menzioni di città
- Trova tutte le menzioni di stati
- trovare tutti gli URL
- Trova tutte le menzioni di numeri telefonici
- Trova tutte le menzioni di zipcodes ... con la possibilità di aggiungere altro ...
Ho sentito RapidMiner dovrebbe essere in grado di fare il text mining come questo, ma AGPL non è una licenza accettabile per il mio scopo.
C'è qualcosa 'standard' per fare questo tipo di analisi?
Soluzione
Leggi informazioni sulla Named Entity Recognition . Si può provare a Apache OpenNLP o Apache UIMA , entrambi i quali hanno la, beh, licenza Apache.
Altri suggerimenti
Per tali entità tipo è possibile utilizzare lo strumento di NER basato su regole come gexp .
Autorizzato sotto: CC-BY-SA insieme a attribuzione
Non affiliato a StackOverflow