Kann ich Intranet Seiteninhalt mit Named Entity Recognition identifizieren?

StackOverflow https://stackoverflow.com/questions/4001785

  •  25-09-2019
  •  | 
  •  

Frage

Ich bin neu in Natural Language Processing und ich möchte mehr lernen, indem sie ein einfaches Projekt. NLTK wurde in NLP beliebt sein vorgeschlagen, damit ich es in meinem Projekt verwenden wird.

Hier ist, was würde ich tun:

  • Ich möchte unser Unternehmen Intranet-Seiten scannen; ca. 3K Seiten
  • Ich möchte den Inhalt dieser Seiten analysieren und zu kategorisieren basierend auf bestimmten Kriterien wie: HR, Technik, Unternehmensseiten, etc ...

Von dem, was ich bisher gelesen habe, kann ich dies tun, mit Named Entity Recognition. Ich kann für jede Kategorie von Seiten Einheiten beschreiben, trainieren die NLTK Lösung und führen Sie jede Seite durch die Kategorie zu bestimmen.

Ist das der richtige Ansatz? Ich schätze jede Richtung und Ideen ...

Danke

War es hilfreich?

Lösung

Es sieht aus wie Sie text / Dokumentenklassifizierung tun wollen, das nicht ganz das gleiche ist als Entity Recognition benannt, wo das Ziel alle benannten Entitäten zu erkennen ist (richtige Namen, Orte, Institutionen usw.) in Text. Allerdings könnten Eigennamen sehr gute Eigenschaften, wenn Textklassifikation in einer begrenzten Domäne zu tun, ist es zum Beispiel wahrscheinlich, dass eine Seite mit dem Namen des Chefingenieurs als Ingenieur eingestuft werden könnte.

Das NLTK Buch hat ein Kapitel zu den grundlegenden Textklassifikation .

Lizenziert unter: CC-BY-SA mit Zuschreibung
Nicht verbunden mit StackOverflow
scroll top