¿Cómo empezar a trabajar en la extracción de información?

https://stackoverflow.com/questions/573620

05-09-2019
|

Pregunta

¿podría recomendar un camino de formación para iniciar y llegar a ser muy bueno en la extracción de información. Empecé a leer sobre él para hacer una de mi proyecto hobby y pronto se dio cuenta de que tendría que ser bueno en matemáticas (álgebra, estadísticas, PROB). He leído algunos de los libros de introducción a diferentes temas de matemáticas (y su muy divertido). Buscando un poco de orientación. Por favor, ayuda.

Actualización: Sólo para responder a uno de los comentarios. Estoy más interesado en la información de texto de extracción.

Solución

Sólo para responder a uno de los comentarios. yo Estoy más interesado en información de texto Extracción.

En función de la naturaleza de su proyecto, procesamiento del lenguaje natural , y noreferrer La lingüística computacional puede venir tanto en -ellos útil proporcionar herramientas para medir y extraer características de la información textual, y aplicar la formación de puntuación, o clasificación. libros de buena introductionary incluyen de OReilly Programación de Inteligencia Colectiva (capítulos sobre "la búsqueda, y la clasificación" , filtrado de documentos, y tal vez los árboles de decisión).

proyectos sugeridos que utilizan este conocimiento: de punto de venta (parte de discurso) de marcado, y el reconocimiento de entidades con nombre (capacidad de reconocer los nombres, lugares y fechas de texto plano). Puede usar Wikipedia como un corpus de entrenamiento, ya que la mayoría de la información de destino ya se extrae en infoboxes -esto se puede proporcionar con una cierta cantidad limitada de retroalimentación medición.

El otro gran martillo en IE es la búsqueda, un campo que no debe subestimarse. Una vez más, el libro de OReilly proporciona una cierta introducción en el ranking básico; una vez que tenga un gran corpus de texto indexada, puede hacer algunas tareas realmente IE con él. Echa un vistazo a Peter Norvig: Teorizando a partir de datos como punto de partida, y muy buen motivador -tal vez usted podría volver a desarrollar algunos de sus resultados como un ejercicio de aprendizaje.

Como primer plano de alerta, creo que estoy obligado a decirle, que la extracción de la información es duro . El primer 80% de cualquier tarea dada son generalmente trivial; Sin embargo, la dificultad de cada porcentaje adicional para las tareas es decir, son por lo general crece exponencialmente -en desarrollo y tiempo de investigación. Es también muy poco documentadas -la mayoría de la información de alta calidad se encuentra actualmente en los libros blancos oscuros ( Google scholar es su amigo) -do comprobar a cabo una vez que tienes tu mano quemó un par de veces. Pero lo más importante, no deje que estos obstáculos se lanzan fuera -hay sin duda grandes oportunidades para hacer progresos en esta área.

Otros consejos

Yo recomendaría el libro excelente Introducción a la Recuperación de Información por Christopher D. Manning, Prabhakar Raghavan y Hinrich Schütze. Abarca una amplia esfera de las cuestiones que forman una base grande y hasta a la fecha (2008) para la extracción de información y está disponible en línea en texto completo (bajo el enlace dado).

Yo sugeriría que echar un vistazo a la href="http://www.nltk.org" rel="nofollow noreferrer"> lenguaje natural Toolkit NLTK libro . Ambos están disponibles de forma gratuita y son una gran herramienta de aprendizaje.

No es necesario ser bueno en matemáticas que hacer es decir, justo entender cómo funciona el algoritmo, experimento en los casos para los cuales se necesita un rendimiento óptimo resultado, y la escala con la que se necesita para alcanzar el nivel de precisión de objetivo y el trabajo con ese. Básicamente estás trabajando con algoritmos y de programación y aspectos de CS / AI / máquina de la teoría del aprendizaje no escribir un trabajo de doctorado en la construcción de un nuevo algoritmo de aprendizaje automático donde usted tiene que convencer a alguien a través de los principios matemáticos por eso que el algoritmo funciona de modo estoy totalmente en desacuerdo con esa noción. Hay una diferencia entre la teoría y la práctica - como todos sabemos, los matemáticos están atrapados más en la teoría entonces la viabilidad de algoritmos para producir soluciones de negocio viables. Se podría, sin embargo, hay que hacer un poco de lectura de ambos libros en PNL fondo, así como artículos de revistas para averiguar qué personas encontraron de sus resultados. IE es un dominio mucho del contexto lo que sería necesario primero definir en qué contexto se está intentando extraer información - ¿Cómo definiría esta información? ¿Cuál es su modelo estructurado? Suponiendo que está extrayendo de conjuntos de datos no estructurados y semi. A continuación, también quieren sopesar si desea acercarse a su decir, desde un enfoque humano estándar, que implica cosas como expresiones regulares y la coincidencia de patrones o querrías hacerlo utilizando la máquina de aprendizaje estadístico enfoques como cadenas de Markov. Usted puede incluso mirar a los enfoques híbridos.

Un modelo de proceso estándar que puede seguir para hacer su extracción es adaptar un enfoque de minería de datos / texto:

pre-procesamiento - definir y estandarizar sus datos a la extracción de varias fuentes específicas o la limpieza de sus datos segmentación / clasificación / agrupamiento / asociación - su caja negra, donde se llevará a cabo la mayor parte de su trabajo de extracción post-procesamiento - la limpieza de sus datos a la que desea almacenar o representarlo como información

Además, es necesario entender la diferencia entre lo que es y lo que los datos es la información. Como se puede volver a utilizar su información descubierta como fuentes de datos para construir más información mapas / árboles / gráficos. Está todo muy contextualizada.

pasos estándar para: input-> proceso-> salida

Si está utilizando Java / C ++ hay un montón de marcos y bibliotecas disponibles que puede trabajar. Perl sería un excelente lenguaje para hacer su trabajo de extracción con PNL si se quiere hacer un montón de extracción de texto estándar.

Es posible que desee representar los datos como XML o incluso como grafos RDF (Web Semántica) y para su modelo contextual definido se puede aumentar la relación de asociación y gráficos que muy probablemente cambiarán a medida que haga más y más peticiones extracciones. Desplegarla como un servicio de descanso como usted quiere tratarlo como un recurso para los documentos. Incluso puede vincularlo a taxonomized conjuntos de datos y la búsqueda facetada decir utilizando Solr.

Las buenas fuentes para leer son:

Manual de Compuational Lingüística y Procesamiento del Lenguaje Natural
Fundamentos de Estadística Procesamiento del Lenguaje Natural
Las solicitudes de extracción de información en Prospect
Una introducción al procesamiento del lenguaje Perl y con Prolog
Voz y Procesamiento del Lenguaje (Jurafsky)
Texto de aplicación de minería de programación
El texto Manual de Minería
Taming texto
Los algoritmos de Web inteligente
Edificio aplicaciones de búsqueda
IEEE Diario

Asegúrese de hacer una evaluación exhaustiva antes de implementar este tipo de aplicaciones / algoritmos en producción, ya que pueden aumentar de forma recursiva los requisitos de almacenamiento de datos. Se podría utilizar AWS / Hadoop para el agrupamiento, mahout para la clasificación a gran escala, entre otros. Almacenar sus datos en MongoDB o vertederos no estructurados en liebre, etc. Trate de experimentar con prototipos primero. Hay varios archivos que se pueden utilizar como base para su formación en decir Reuters corpus, tipster, TREC, etc Usted puede incluso echa un vistazo a alchemyapi, GATE, UIMA, OpenNLP, etc.

extracciones de construcción de texto estándar es más fácil luego decir un documento web para la representación en etapa de pre-procesamiento se vuelve aún más crucial para definir qué es exactamente lo que está intentando extraer de una representación documento normalizado.

Las medidas estándar son: precisión, recordar, entre otros medida f1

No estoy de acuerdo con la gente que recomiendo la lectura colectiva de programación Intelligence.If desea hacer cualquier cosa, incluso de complejidad moderada, tiene que ser bueno en matemáticas aplicadas y PCI le da una falsa sensación de confianza. Por ejemplo, cuando se habla de la SVM, sólo dice que libSVM es una buena manera de ponerlas en práctica. Ahora libSVM es sin duda un buen paquete, sino que se preocupa por paquetes. Lo que hay que saber es por qué SVM da los excelentes resultados que da y la forma en que es fundamentalmente diferente de la forma de pensar bayesiano (y cómo Vapnik es una leyenda).

En mi humilde opinión, no hay una solución a ella. Usted debe tener un buen agarre en Álgebra Lineal y la probabilidad y la teoría bayesiana. Bayes, debo añadir, es tan importante para este como el oxígeno para los seres humanos (que es un poco exagerada, pero se obtiene lo que quiero decir, ¿verdad?). Además, conseguir un buen agarre en aprendizaje automático. Sólo mediante el trabajo de otras personas es perfectamente bien, pero el momento que desea saber por qué algo se hace de la manera que fuera, que tendrá que saber algo acerca de ML.

Compruebe estos dos para que:

http://pindancing.blogspot.com/2010/ 01 / aprendizaje-sobre-máquina-learniing.html

http://measuringmeasures.com/blog/ 2010/1/15 / aprendizaje-sobre-estadístico-learning.html

http: // measuringmeasures. com / blog / 2010/3/12 / aprendizaje-sobre-máquina-aprendizaje-segundo-ed.html

De acuerdo, ahora que es tres de ellos :) / refresca

El artículo de Wikipedia extracción de información es una introducción rápida.

A un nivel más académico, es posible que desee hojear un periódico como La integración de modelos probabilísticos de extracción y Minería datos para descubrir las relaciones y patrones de texto .

Tome una mirada aquí si necesita servicio NER de nivel empresarial. El desarrollo de un sistema NER (y conjuntos de entrenamiento) es un muy lento y alta tarea especializada.

Esto es un poco fuera de tema, pero es posible que desee leer Programación de Inteligencia Colectiva de O'Reilly. Se ocupa de forma indirecta con la extracción de información de texto, y no asume gran parte de un fondo de matemáticas.

Licenciado bajo: CC-BY-SA con atribución

No afiliado a StackOverflow