Frage

Ich suche Namen und Orte von sehr kurzen Ausbrüchen von Text Beispiel extrahieren

 "cardinals vs jays in toronto"
 " Daniel Nestor and Nenad Zimonjic play Jonas Bjorkman w/ Kevin Ullyett, paris time to be announced"
"jenson button - pole position, brawn-mercedes - monaco".

Diese Daten sind zur Zeit in einer MySQL-Datenbank, und ich (ziemlich) haben einen separaten Eintrag für jeden Sportler, obwohl Namen manchmal falsch geschrieben sind, etc.

Ich möchte die Athleten und Standorte extrahieren. Ich arbeite in der Regel in PHP, haben aber nicht in der Lage gewesen, eine Bibliothek für die Einheit Extraktion zu finden (und ich kann in einige NLP und ML in der Zukunft).

Von dem, was ich gefunden habe, LingPipe und

War es hilfreich?

Lösung

Was Sie beschreiben, ist genannt Entitätserkennung . Also würde ich empfehlen, die anderen Fragen zu diesem Thema, wenn Sie nicht bereits sie gesehen. Diese sieht aus wie die nützlichste Antwort für mich.

Ich kann wirklich nicht sagen, ob NLTK oder LingPipe ist am besten geeignet für diese Aufgabe aus, obwohl bei den Antworten zu suchen es sieht aus wie es schon einige andere Ressourcen in Java geschrieben.

Ein Vorteil bei NLTK gehen ist, dass Python sehr zugänglich als Sprache ist. Der andere Vorteil ist, dass das NLTK Buch (die kostenlos zur Verfügung steht) bietet eine Einführung in beiden Python und NLTK zur gleichen Zeit, die Ihnen nützlich sein würde.

Lizenziert unter: CC-BY-SA mit Zuschreibung
Nicht verbunden mit StackOverflow
scroll top