Filtraggio informazioni dai grandi corpi di testo

https://stackoverflow.com/questions/6307450

26-10-2019
|

Domanda

C'è una best practice, algoritmo o software (open source con una licenza permissiva necessaria ...) che può trovare informazioni dai corpi di testo? Mi riferisco a:

trova tutti gli indirizzi di posta elettronica in un testo
Trova tutte le menzioni di città
Trova tutte le menzioni di stati
trovare tutti gli URL
Trova tutte le menzioni di numeri telefonici
Trova tutte le menzioni di zipcodes ... con la possibilità di aggiungere altro ...

Ho sentito RapidMiner dovrebbe essere in grado di fare il text mining come questo, ma AGPL non è una licenza accettabile per il mio scopo.

C'è qualcosa 'standard' per fare questo tipo di analisi?

Soluzione

Leggi informazioni sulla Named Entity Recognition . Si può provare a Apache OpenNLP o Apache UIMA , entrambi i quali hanno la, beh, licenza Apache.

Altri suggerimenti

Per tali entità tipo è possibile utilizzare lo strumento di NER basato su regole come gexp .

Autorizzato sotto: CC-BY-SA insieme a attribuzione

Non affiliato a StackOverflow