Estrategias para reconocer nombres propios en PNL.

https://stackoverflow.com/questions/608743

03-07-2019
|

Pregunta

Estoy interesado en aprender más sobre Procesamiento del lenguaje natural (PNL) y tengo curiosidad si Actualmente, ¿existen estrategias para reconocer nombres propios en un texto que no se basen en el reconocimiento del diccionario? Además, ¿podría alguien explicar o enlazar a recursos que expliquen los métodos actuales basados ??en diccionarios? ¿Quiénes son los expertos autorizados en PNL o cuáles son los recursos definitivos sobre el tema?

Solución

La tarea de determinar la parte correcta del habla para una palabra en un texto se llama Parte del etiquetado de voz . El Brill tagger , por ejemplo, utiliza una mezcla de palabras de diccionario (vocabulario) y reglas contextuales. Creo que algunas de las palabras importantes del diccionario inicial para esta tarea son las palabras para detener. Una vez que tenga (en su mayoría correctas) partes del habla para sus palabras, puede comenzar a construir estructuras más grandes. Este libro orientado a la industria se diferencia entre reconocer frases nominales (NP) y reconocer las entidades nombradas. Acerca de los libros de texto: Entendimiento del lenguaje natural de Allen es un libro bueno, pero un poco anticuado . Fundamentos del procesamiento estadístico del lenguaje natural es una buena introducción a la PNL estadística. Procesamiento del habla y del lenguaje es un poco más riguroso y quizás más autoritario. La Asociación de Lingüística Computacional es una comunidad científica líder en lingüística computacional.

Otros consejos

Además del enfoque basado en el diccionario, otros dos vienen a mi mente:

Enfoques basados ??en patrones (en una forma simple: todo lo que esté en mayúscula es un nombre propio)
Enfoques de aprendizaje automático (marque los nombres propios en un corpus de capacitación y capacite a un clasificador)

El campo se denomina principalmente extracción de entidad nombrada y, a menudo, se considera un subcampo de extracción de información . Un buen punto de partida para los diferentes campos de la PNL suele ser el capítulo correspondiente en el Manual de Oxford de Lingüística Computacional :

_{(fuente: oup.com )}

Intente buscar " reconocimiento de entidad nombrada " es el término que se usa en la literatura de PNL para este tipo de cosas.

Depende de lo que entiendas por diccionario.

Por ejemplo, una estrategia sería tomar cosas que no están en un diccionario e intentar suponer que son nombres propios. Si esto lleva a un análisis sensato, considere el supuesto validado provisionalmente y continúe, de lo contrario concluya que no lo están.

Otras ideas:

En la posición de sujeto, cualquier sujeto simple sin un determinante es un buen candidato.
Ídem en frases preposicionales
En cualquier posición, la base de un determinante posesivo (por ejemplo, Bob en la hermana de Bob) es un buen candidato

- MarkusQ

algunos kits de herramientas sugeridos: 1. Opennlp: hay un componente de Reconocimiento de Entidades Nombradas para su tarea 2. LingPipe: también un componente NER para él 3. Paquete de PNL de Stanford: excelente paquete para uso académico, tal vez no apto para uso comercial 4. nltk: un paquete de PNL de Python

si tiene una oración como " ¿quién es bill gates " Y si le aplicas parte del etiquetador de voz. Dará respuesta como

" who / WP is / VBZ bill / NN gates / NNS? /. "

U puede probar esto en línea en http://cst.dk/online/pos_tagger/uk/

Entonces estás obteniendo cuáles son todos los sustantivos en esta oración. Ahora puedes extraer fácilmente estos nombres con algún algoritmo. Sugiero usar python si está utilizando el procesamiento de lenguaje natural. Tiene NLTK (kit de herramientas de lenguaje natural) con el que puede trabajar.

Si está interesado en la implementación del procesamiento de lenguaje natural y python es su lenguaje de programación, este puede ser un recurso muy informativo: http://www.youtube.com/watch?v=kKe4M4iSclc

Aunque esto es para el idioma bengalí, pero puede dibujar un procedimiento común identificado como nombre propio. Así que espero que esto te sea útil. Por favor revise el siguiente enlace: http://www.mecs-press.org/ijmecs /ijmecs-v6-n8/v6n8-1.html

Licenciado bajo: CC-BY-SA con atribución

No afiliado a StackOverflow