Frage

Gibt es eine Best Practice, einen Algorithmus oder eine Software (Open Source mit einer zulässigen Lizenz, die erforderlich ist), die Informationen aus Textbehörden finden können? Ich beziehe mich auf:

  • Suchen Sie alle E -Mail -Adressen in einem Text
  • Finden Sie alle Erwähnungen von Städten
  • Finden Sie alle Erwähnungen von Staaten
  • Finden Sie alle URLs
  • Finden Sie alle Erwähnungen von Telefonnummern
  • Finden Sie alle Erwähnungen von Zipcodes ... mit der Fähigkeit, mehr ...

Ich habe gehört, dass RapidMiner in der Lage sein sollte, einen solchen Textmining zu machen, aber AGPL ist keine akzeptable Lizenz für meinen Zweck.

Gibt es etwas "Standard", um diese Art von Analyse durchzuführen?

War es hilfreich?

Lösung

Lesen über Genannte Entitätserkennung. Du kannst es versuchen Apache OpenNLP oder Apache Uima, beide haben die Apache -Lizenz.

Andere Tipps

Für solche Entitäten können Sie regelbasiertes NER-Tool wie verwenden Gexp.

Lizenziert unter: CC-BY-SA mit Zuschreibung
Nicht verbunden mit StackOverflow
scroll top