Domanda

C'è una best practice, algoritmo o software (open source con una licenza permissiva necessaria ...) che può trovare informazioni dai corpi di testo? Mi riferisco a:

  • trova tutti gli indirizzi di posta elettronica in un testo
  • Trova tutte le menzioni di città
  • Trova tutte le menzioni di stati
  • trovare tutti gli URL
  • Trova tutte le menzioni di numeri telefonici
  • Trova tutte le menzioni di zipcodes ... con la possibilità di aggiungere altro ...

Ho sentito RapidMiner dovrebbe essere in grado di fare il text mining come questo, ma AGPL non è una licenza accettabile per il mio scopo.

C'è qualcosa 'standard' per fare questo tipo di analisi?

È stato utile?

Soluzione

Leggi informazioni sulla Named Entity Recognition . Si può provare a Apache OpenNLP o Apache UIMA , entrambi i quali hanno la, beh, licenza Apache.

Altri suggerimenti

Per tali entità tipo è possibile utilizzare lo strumento di NER basato su regole come gexp .

Autorizzato sotto: CC-BY-SA insieme a attribuzione
Non affiliato a StackOverflow
scroll top