Pregunta

Soy nuevo en el mundo de la minería de texto y he estado leyendo sobre anotadores en lugares como el href="http://uima.apache.org/" página web UIMA . Estoy encontrando muchos nuevos términos como el reconocimiento de entidades con nombre, tokenizer, lematizador, diccionario geográfico, etc. Viniendo de un fondo laico, todo esto es muy confuso, así puede alguien que me diga o vínculo a los recursos que pueden explicar por qué las principales categorías de anotadores son y lo que hacen?

¿Fue útil?

Solución

Estas son las capacidades básicas de procesamiento de lenguaje natural (o anotadores) que normalmente son necesarios para extraer las dependencias de idiomas de datos textuales en aras de búsqueda y otras aplicaciones:

Sentencia interruptor - al texto dividido (por lo general, los párrafos de texto) para frases. Incluso en Inglés puede ser difícil para algunos casos como "estancia señor y la señora Brown en la habitación no. 20".

Tokenizer - al texto dividido o frases de palabras o unidades de nivel de palabra, incluyendo puntuacion. Esta tarea no es trivial para los idiomas, sin espacios y sin comprensión estable de los límites de palabra (por ejemplo, chino, japonés)

Parte de discurso Tagger - adivinar parte del discurso de cada palabra en el contexto de la pena; por lo general cada palabra se le asigna un llamado POS-etiqueta de un conjunto de etiquetas desarrollado por adelantado para servir a su tarea final (por ejemplo, el análisis).

lematizador - para convertir una palabra dada en su forma canónica ( lema ). Por lo general, lo que necesita saber POS-etiqueta de la palabra. Por ejemplo, la palabra "calentar" como gerundio se debe convertir a "calor", pero como sustantivo que debe ser dejado sin cambios.

Analizador - para realizar el análisis sintáctico de la oración y construir un árbol sintáctico o gráfico. Hay dos formas principales para representar la estructura sintáctica de la frase: a través de circunscripción o dependencia .

Resumidor - para generar un breve resumen del texto mediante la selección de un conjunto de las mejores frases informativas del documento, que representa su idea principal. Sin embargo se puede hacer de manera más inteligente de lo que acaba de seleccionar las frases de los ya existentes.

Nombrado Entidad Reconocimiento - para extraer los llamados entidades mencionadas en el texto. entidades nombradas son los trozos de palabras de texto, que se refieren a una entidad de cierto tipo. Los tipos pueden incluir: ubicaciones geográficas (países, ciudades, ríos, ...), nombres de personas, nombres de organizaciones, etc. Antes de entrar en la tarea NER hay que entender qué quiere conseguir y, es posible, definir previamente una taxonomía de la entidad denominada tipos de resolver.

Resolución correferencia - al grupo denominado entidades (o, dependiendo de su tarea, cualquier otro texto unidades) en conglomerados correspondientes a un solo objeto real / significado. Por ejemplo, "B. puertas", "William Gates", "Fundador de Microsoft", etc., en un texto puede significar la misma persona, se hace referencia mediante el uso de diferentes expresiones.

No tenemos muchas otras aplicaciones interesantes PNL / anotadores (véase PNL tareas categoría ) , análisis de los sentimientos, la traducción automática, etc.). Hay muchos libros sobre este tema, el libro clásico:.. "Habla y del lenguaje de procesamiento" por Daniel Jurafsky y James H. Martin, pero puede ser demasiado detallado para usted

Licenciado bajo: CC-BY-SA con atribución
scroll top