Kann ich Intranet Seiteninhalt mit Named Entity Recognition identifizieren?

https://stackoverflow.com/questions/4001785

nlp
nltk

25-09-2019
|

Frage

Ich bin neu in Natural Language Processing und ich möchte mehr lernen, indem sie ein einfaches Projekt. NLTK wurde in NLP beliebt sein vorgeschlagen, damit ich es in meinem Projekt verwenden wird.

Hier ist, was würde ich tun:

Ich möchte unser Unternehmen Intranet-Seiten scannen; ca. 3K Seiten
Ich möchte den Inhalt dieser Seiten analysieren und zu kategorisieren basierend auf bestimmten Kriterien wie: HR, Technik, Unternehmensseiten, etc ...

Von dem, was ich bisher gelesen habe, kann ich dies tun, mit Named Entity Recognition. Ich kann für jede Kategorie von Seiten Einheiten beschreiben, trainieren die NLTK Lösung und führen Sie jede Seite durch die Kategorie zu bestimmen.

Ist das der richtige Ansatz? Ich schätze jede Richtung und Ideen ...

Danke

Lösung

Es sieht aus wie Sie text / Dokumentenklassifizierung tun wollen, das nicht ganz das gleiche ist als Entity Recognition benannt, wo das Ziel alle benannten Entitäten zu erkennen ist (richtige Namen, Orte, Institutionen usw.) in Text. Allerdings könnten Eigennamen sehr gute Eigenschaften, wenn Textklassifikation in einer begrenzten Domäne zu tun, ist es zum Beispiel wahrscheinlich, dass eine Seite mit dem Namen des Chefingenieurs als Ingenieur eingestuft werden könnte.

Das NLTK Buch hat ein Kapitel zu den grundlegenden Textklassifikation .

Lizenziert unter: CC-BY-SA mit Zuschreibung

Nicht verbunden mit StackOverflow