Strategie per riconoscere i nomi propri della PNL

https://stackoverflow.com/questions/608743

03-07-2019
|

Domanda

Sono interessato a saperne di più su Natural Language Processing (NLP) e sono curioso di sapere se ci sono attualmente strategie per riconoscere i nomi propri in un testo che non sono basati sul riconoscimento del dizionario? Inoltre, qualcuno potrebbe spiegare o collegare a risorse che spiegano gli attuali metodi basati su dizionario? Chi sono gli esperti autorevoli della PNL o quali sono le risorse definitive in materia?

Soluzione

Il compito di determinare la parte corretta del discorso per una parola in un testo è chiamato Parte del parlato . Il Brill tagger , ad esempio, utilizza una combinazione di parole del dizionario (vocabolario) e regole contestuali. Credo che alcune delle importanti parole del dizionario iniziale per questo compito siano le parole di arresto. Una volta che hai (per lo più corretto) parti del discorso per le tue parole, puoi iniziare a costruire strutture più grandi. Questo libro orientato al settore distingue tra il riconoscimento di frasi di nome (NP) e il riconoscimento di entità nominate. Informazioni sui libri di testo: Comprensione del linguaggio naturale di Allen è un buon libro, ma un po 'datato . Fondamenti dell'elaborazione statistica del linguaggio naturale è una bella introduzione alla PNL statistica. Elaborazione vocale e linguistica è un po 'più rigorosa e forse più autorevole. L'Associazione per la linguistica computazionale è una comunità scientifica leader sulla linguistica computazionale.

Altri suggerimenti

Oltre all'approccio basato sul dizionario, mi vengono in mente altri due:

Approcci basati su modelli (in una forma semplice: tutto ciò che è in maiuscolo è un nome proprio)
Approcci di apprendimento automatico (contrassegnare i nomi propri in un corpus di addestramento e formare un classificatore)

Il campo è principalmente chiamato estrazione di entità nominate e spesso considerato un sottocampo di estrazione di informazioni . Un buon punto di partenza per i diversi campi della PNL è di solito il capitolo corrispondente nel Manuale di Oxford della linguistica computazionale :

_{(fonte: oup.com )}

Prova a cercare " riconoscimento entità riconosciuto " - questo è il termine usato nella letteratura della PNL per questo genere di cose.

Dipende da cosa intendi per dizionario.

Ad esempio, una strategia sarebbe quella di prendere le cose che non sono in un dizionario e provare a procedere supponendo che siano nomi propri. Se questo porta a un'analisi ragionevole, considera l'ipotesi validata provvisoriamente e continua, altrimenti concludi che non lo sono.

Altre idee:

Nella posizione del soggetto, qualsiasi soggetto semplice senza un determinante è un buon candidato.
Idem in frasi preposizionali
In qualsiasi posizione, la base di un determinante possessivo (ad es. Bob nella "sorella di Bob") è un buon candidato

- MarkusQ

alcuni toolkit suggeriti: 1. Opennlp: esiste un componente di riconoscimento delle entità nominate per l'attività 2. LingPipe: anche un componente NER per esso 3. Pacchetto PNL Stanford: pacchetto eccellente per uso accademico, forse non commerciale. 4. nltk: un pacchetto NLP Python

se hai una frase come " who is bill gates " E se si applica parte del linguaggio tagger ad esso. Darà risposta come

" who / WP is / VBZ bill / NN gates / NNS? /. & Quot;

U puoi provarlo online su http://cst.dk/online/pos_tagger/uk/

Quindi otterrai tutti i nomi di questa frase. Ora puoi estrarre facilmente questi nomi con qualche algoritmo. Suggerisco di usare Python se si utilizza l'elaborazione del linguaggio naturale. Ha NLTK (Natural language toolkit) con cui puoi lavorare.

Se sei interessato all'implementazione dell'elaborazione del linguaggio naturale e python è il tuo linguaggio di programmazione, allora questa può essere una risorsa molto istruttiva: http://www.youtube.com/watch?v=kKe4M4iSclc

Anche se questo è per la lingua bengalese, ma può disegnare una procedura comune identificata nome proprio. Quindi spero che questo ti sarà utile. Si prega di controllare il seguente link: http://www.mecs-press.org/ijmecs /ijmecs-v6-n8/v6n8-1.html

Autorizzato sotto: CC-BY-SA insieme a attribuzione

Non affiliato a StackOverflow