Strategien zur Erkennung von Eigennamen in NLP

https://stackoverflow.com/questions/608743

03-07-2019
|

Frage

Ich bin daran interessiert, mehr über Natural Language Processing (NLP) Lernen und bin gespannt, ob gibt es derzeit keine Strategien Eigennamen in einem Text zur Erkennung, die auf Wörterbuch Anerkennung nicht beruht? Auch könnte jemand erklären oder einen Link zu Ressourcen, die die aktuellen Wörterbuch-basierten Methoden erklären? Wer sind die maßgeblichen Experten auf NLP oder was sind die endgültigen Ressourcen zum Thema?

Lösung

Die Aufgabe für ein Wort, um den richtigen Teils der Sprache der Bestimmung in einem Text Wortart Tagging genannt . Das Brill-Tagger zum Beispiel verwendet eine Mischung aus Wörterbuch (Vokabular) Worten und Kontextregeln. Ich glaube, dass einige der wichtigen ersten Wörter aus dem Wörterbuch für diese Aufgabe die Stoppwörter sind. Sobald Sie (meist richtig) Teile der Sprache für Ihre Worte haben, können Sie bauen größere Strukturen beginnen. Dieses branchenorientierte Buch zwischen dem erkennen Nominalphrasen (NPs) und erkennen benannten Entitäten unterscheidet. Über Lehrbücher: Allens Natural Language Understanding ist ein gutes, aber ein bisschen veraltet, Buch . Foundations of Statistical Natural Language Processing ist eine schöne Einführung in die statistische NLP. Sprachverarbeitung etwas strenger ist und vielleicht mehr Autorität. The Association for Computational Linguistics auf Computerlinguistik eine führende wissenschaftliche Gemeinschaft ist.

Andere Tipps

Neben dem Wörterbuch-basierten Ansatz, zwei andere kommen mir in den Sinn:

Pattern-basierte Ansätze (in einer einfachen Form: alles, was groß geschrieben wird, ist ein Eigenname)
Maschinenlernansätze (Eigennamen in einem Trainingskörper markieren und trainieren einen Klassifikator)

Das Feld meist genannt wird Named-Entity-Extraktion und oft ein Teilfeld von Informationsextraktion in Betracht gezogen. Ein guter Ausgangspunkt für die verschiedenen Bereiche der NLP ist in der Regel die entsprechenden Kapitel in dem Oxford Handbook of Computational Linguistics :

_{(Quelle: oup.com )}

Versuchen Sie, für „benannte Entity Recognition“ gesucht -. Das ist der Begriff, der in der NLP-Literatur für diese Art der Sache verwendet wird

Es hängt davon ab, was Sie mit Wörterbuch-basiert.

Zum Beispiel, eine Strategie wäre, die Dinge zu nehmen, dass nicht in einem Wörterbuch und versucht, auf der Annahme ausgehen, dass sie Eigennamen sind. Wenn dies zu einem vernünftigen Parse führt, betrachtet die Annahme vorläufig validiert und weitermachen, sonst schließt daraus, dass sie nicht sind.

Weitere Ideen:

In Subjektposition, jedes einfaches Thema ohne Bestimmer ist ein guter Kandidat.
Ditto in Präpositionalphrasen
In jeder Position, die aufgrund eines besitzergreifend Bestimmer (z Bob in "Bob Schwester") ist ein guter Kandidat

- MarkusQ

einige Toolkits vorgeschlagen: 1. Opennlp: Es gibt eine Named Entity Recognition Komponente für Ihre Aufgabe 2. LingPipe: auch eine NER Komponente für sie 3. Stanford NLP-Paket: ausgezeichnetes Paket für die akademische Nutzung, vielleicht auch nicht kommerzielles freundlich. 4. nltk: ein Python NLP-Paket

Wenn Sie Satz haben wie „wer ist Bill Gates“ Und wenn Sie einen Teil der Rede Tagger für sie gelten. Es gibt Antwort als

"die / WP / VBZ Rechnung / NN Tore / NNS? /."

U kann versuchen, diese online auf http://cst.dk/online/pos_tagger/uk/

So Sie bekommen, was sind alle Substantive in diesem Satz. Jetzt können Sie leicht diese Substantive mit einigem Algorithmus extrahieren. Ich schlage vor, Python zu verwenden, wenn Sie die Verarbeitung natürlicher Sprache verwenden. Es hat NLTK (Natural Language Toolkit), mit denen Sie arbeiten können.

Wenn Sie bei der Durchführung der Verarbeitung natürlicher Sprache und Python interessiert ist Ihre Programmiersprache, dann kann dies eine sehr informative Ressource sein: http://www.youtube.com/watch?v=kKe4M4iSclc

Obwohl dies für bengalische Sprache ist, aber es kann ein gemeinsames Verfahren identifiziert Eigennamen ziehen. Also ich hoffe, dass dies für Sie hilfreich sein. Bitte überprüfen Sie die folowing Link: http://www.mecs-press.org/ijmecs /ijmecs-v6-n8/v6n8-1.html

Lizenziert unter: CC-BY-SA mit Zuschreibung

Nicht verbunden mit StackOverflow