Recuperar información de diferentes archivos de texto no estructurados: ¿minería de texto?

StackOverflow https://stackoverflow.com/questions/2461477

  •  20-09-2019
  •  | 
  •  

Pregunta

Necesito ayuda para resolver este problema.

Tenemos una gran cantidad de documentos de un dominio especificado dado. Estos documentos son de fuentes diferentes y, por lo tanto, su estructura también puede ser muy diferente. Por otro lado, tengo una tabla con algunos campos especificados donde algunas cifras deben llenarse del extracto de los documentos.

Por ejemplo:

La Compañía X tenía un volumen de negocios de $ 20MIO en 2010. $ 1,000,000 fue el intercambio de la Compañía Y este año.

El resultado debería algo como esto

|| Company | Year | Volume  
||  X      | 2010 |  200,000  
||  Y      | 2010 | 1000,000  

¿Puedes señalarme por favor algunos enlaces o temas, donde puedo encontrar más información sobre cómo resolver tal problema?

Sé que no hay una solución fuera de la caja para esto, pero ¿dónde debería comenzar a buscar?

Gracias por adelantado.

¿Fue útil?

Solución

Está bien. ¡Hay laboratorios de informática enteros dedicados a ese tipo de cosas! Tal vez comenzar mirando una herramienta llamada Minero

También aquí hay un par de títulos de papel de investigación que tengo como PDF (que ya no tengo enlaces tristemente):

1. Comprensión automatizada de estados financieros utilizando redes neuronales y gramáticas semánticas

James Markovitch Dun y Bradstreet, Search Technologies Abril 1995 Correo electrónico: jsmarmarkovitch@yahoo.com Copyright  1995 James Markovitch

2. Un enfoque integrado para la extracción automática de estructura semántica en imágenes de documentos

Margherita Berardi, Michele Lapi y Donato Malerba Dipartimento di Informatica - Università degli Studi di Bari a través de Orabona 4 - 70126 Bari {Berardi, Lapi, Malerba}@di.uniba.it

Creo que el primero sería de mayor interés en términos de lo que buscas. No estoy seguro de cuánto valor será :)

Licenciado bajo: CC-BY-SA con atribución
No afiliado a StackOverflow
scroll top