lectura para analizar los datos descuidados / Animada / “casi estructurados” fondo?

https://stackoverflow.com/questions/1369073

21-09-2019
|

Pregunta

Estoy manteniendo un programa que necesita para analizar los datos de salida que está presente en una forma "casi estructurado" en el texto. es decir, los diversos programas que la producen utilizar formatos ligeramente diferentes, que pueden haber sido impreso y OCR'd de vuelta en (sí, lo sé) con errores, etc. así que tengo que utilizar heurísticas que adivinar cómo se produjo y se aplican diferentes peculiaridades modos, etc. Es frustrante, porque estoy un poco familiarizado con la teoría y la práctica de analizar si las cosas se comportan bien, y hay buenos marcos de análisis etc. por ahí, pero la falta de fiabilidad de los datos me ha llevado a escribir algunos muy código ad-hoc descuidado. Está bien en el momento pero me preocupa que tan amplío que procese más variaciones y datos más complejos, las cosas van a ir de las manos. Así que mi pregunta es:

Debido a que hay un buen número de productos comerciales existentes que hacen cosas relacionadas ( "peculiaridades modos" en los navegadores web, interpretación error en compiladores, incluso el procesamiento del lenguaje natural y la minería de datos, etc.) Estoy seguro que algunas personas inteligentes tienen pensar acerca de esto, y trataron de desarrollar una teoría, ¿cuáles son las mejores fuentes para la lectura de fondo en el análisis de datos sin principios de una manera como principios posible?

Me doy cuenta de que esto es algo abierto, pero mi problema es que yo creo que necesito más antecedentes para siquiera saber cuáles son las preguntas correctas para preguntar lo son.

Solución

Teniendo en cuenta la posibilidad de elegir entre lo que has propuesto y la lucha contra un hambriento cocodrilo, mientras que cubren en la mermelada con sabor a crudo-carne de vaca y las dos manos atadas a la espalda, me quedaría con el ...

Bueno, de acuerdo con una nota más seria, si tiene datos que no se rigen por la estructura de cualquier "sano", hay que estudiar los datos y encontrar las frecuencias de peculiaridades en ella y correlacionar los datos para el contexto dado (es decir, la forma en que se generó)

Imprimir a OCR para obtener los datos en casi siempre va a conducir a la rotura del corazón. La empresa donde trabajo emplea un verdadero ejército de personas que leen manualmente dichos documentos y de la mano "código" (es decir, introducir a mano) los datos de OCR escenarios problemáticos conocidos, o documentos de nuestros clientes detecta el OCR original no sucesivamente.

En cuanto a aprovechamiento de "Marcos" al analizar estos datos tienden a esperar que siempre va a seguir las reglas de la gramática ya ha dispuesto. Los datos que has descrito no tiene tales garantías. Si ir por ese camino se prepare inesperada - aunque no siempre es obvio -. Fracasos

Por todos los medios si hay alguna manera posible para obtener los archivos de datos originales, que lo hagan. O si se puede exigir que los que proporcionan los datos ponen sus datos vienen en un solo formato bien definido, aún mejor. (Puede que no sea "su" formato, pero al menos es un formato regular y predecible se puede convertir de)

Licenciado bajo: CC-BY-SA con atribución

No afiliado a StackOverflow