Extracción de datos en PDF: necesitar sugerencias

https://stackoverflow.com/questions/5338062

26-10-2019
|

Pregunta

Creé un Herramienta de extracción de PDF. Pantalla de muestra adjunta. enter image description here El usuario puede cargar un archivo PDF y seleccionar el área de datos que desee. Luego toma las coordenadas PDF y el número de página y luego lo guardo como una plantilla. Una vez que el usuario, due una lista de la herramienta PDF archivos, es capaz de extraer datos de acuerdo con el archivo de plantilla. Mi herramienta es muy similar a esto.

Ahora el problema a veces es en algunos PDF, la parte de los datos requeridos para extraer se desplaza a la página siguiente. (La razón para cambiar es; me daré un ejemplo. Si cree que una lista de artículos que compró, El lugar de "valor total" impreso depende de la cantidad de elementos que compró: si es una lista larga, el total de la parte inferior de lo contrario, medio o cerca de la parte superior).

Por lo tanto, ahora estoy pensando en Identifique la estructura del PDF en lugar de obtener coordenadas.

Pero no tengo una idea clara para hacer eso. Comparta cualquier cosa, cree que ayuda a resolver este problema. Repito nuevamente que estoy tratando de obtener datos de un PDF. Entonces es posible capturar la estructura de un PDF expediente.

Mi idea es que si puedo identificar la estructura, entonces puedo decir dónde está el valor. Por ejemplo, intenté convertir PDF en HTML e intenté navegar a través de los valores de la etiqueta HTML. (cuerpo-> div-> table-> td-> etc.) pero no tuvo éxito ... :(

Solución

PDF solo tiene estructuras débiles, nada como divs o contenedores. Hay grupos de capa y similares, pero las coordenadas son lo único con lo que puede contar.

Intente describir el tipo de texto y márgenes de izquierda y derecha, para que su página de captura sea independiente.

Otros consejos

El formato de archivo PDF incluye un conjunto opcional de metatags. Si se usan, el archivo tendrá alguna estructura. De lo contrario, no tienes suerte. Escribí una publicación de blog que te dijo cómo descubrir esto en http://www.jpedal.org/pdfblog/2010/09/the-easy-way-to-discover-if-a-pdf-file-contains-structived-content/

Puede usar un "ancla", como "ordenar cita" y luego capturar datos en relación con ese. Echa un vistazo a www.ivytools.net - En esa herramienta, puede definir reglas que especifiquen cómo encontrar valores en relación con otro texto en el documento. En tu ejemplo sería algo así como:

p.Find("ORDER QTY").Down()

Licenciado bajo: CC-BY-SA con atribución

No afiliado a StackOverflow