Pregunta

He buscado a lo largo y ancho. Tal vez no sé qué buscar ...

Necesito poder indexar y buscar PDF "asegurado". Estos PDF tienen el atributo "No copiar" seleccionado y están bloqueados. Lo que significa que no hay forma de copiar el contenido del PDF sin el nombre de usuario y la contraseña. IFILTER respeta estas configuraciones y no permitirá que el PDF se indexará.

Estoy buscando un medio para indexar y buscar tesis PDF en mi servidor usando ASPX.NET. Parecería que estoy atrapado con uno de los siguientes:

  1. I debería tener las credenciales necesarias para abrir estos PDF para obtener acceso "Copiar" al contenido
  2. Cuando se envía un PDF para mi herramienta, deberán enviarse dos artículos: La palabra copia - y - La copia PDF
  3. tiene el contenido completo copiado a los metadatos del PDF, o al menos algunas palabras clave. No he examinado qué tipo de riesgos podrían estar involucrados aquí. Esto significaría un paso adicional para los escritores
  4. Soluciones ONE y 2 significaría mantener una copia duplicada ... ya sea en el servidor o en un DB y consulte el real para descargar, programáticamente. ¿Alguien tiene una solución para esto? Preferiría las capacidades de indexación, ya que no significa ninguna duplicación de contenido. La solución 3 es atractiva si los datos META PDFS pueden manejar ese mucho contenido y si la seguridad aún está intacta. También me he preguntado sobre el acceso programático al PDF, donde, a través de C # o VB, puedo usar las credenciales para obtener el acceso ... pero parece que puedo estar atrapado.

    Este es mi último esfuerzo de zanja para encontrar otra solución. Cualquier ayuda sería apreciada.

¿Fue útil?

Solución 2

Terminé yendo con una solución completamente diferente.Me encantó la idea de utilizar la indexación de MS, pero se está volviendo mucho más fácil de usar SQL y tener al usuario que cargue las palabras clave PDF Pegado, o el contenido del PDF en un cuadro de texto.Luego, SQL puede indexar esa "columna" y bamm ... un motor de búsqueda hace el resto.

Gracias a todos por tomarse el tiempo para considerar este.

Otros consejos

Si tiene nombres de usuario y contraseñas para los archivos que quizás, simplemente podría abrir los archivos y extraer texto de ellos?

Entonces podrá construir un índice de datos extraídos.

Docotic.pdf , la biblioteca en la que estoy involucrado, puede abrir archivos protegidos por contraseña para usted.Y también puede extraer texto.El texto se puede extraer como texto simple o formateado y se puede dividir con palabras o caracteres.

Por favor, eche un vistazo a las siguientes muestras:

Licenciado bajo: CC-BY-SA con atribución
No afiliado a StackOverflow
scroll top