Indexage PDF sécurisé sans copie sélectionnée

https://stackoverflow.com//questions/12698121

12-12-2019
|

Question

J'ai cherché loin et large. Peut-être que je ne sais pas quoi rechercher ...

Je dois être capable d'indexer et de rechercher des PDF "sécurisées". Ces fichiers PDF ont l'attribut "NO Copy" sélectionné et sont verrouillés. Ce qui signifie qu'il n'y a aucun moyen de copier le contenu du PDF sans le nom d'utilisateur et le mot de passe. Ifilter respecte ces paramètres et ne permettra pas d'indexer le PDF.

Je cherche un moyen d'indexer et de rechercher ces pdfs sur mon serveur en utilisant aspx.net. Il semblerait que je sois coincé avec l'une des opérations suivantes:

Je pourrais avoir les informations d'identification nécessaires pour ouvrir ces PDF pour obtenir "Copier" l'accès au contenu
Lorsqu'un PDF est soumis à mon outil, deux éléments devront être soumis: Le mot copie - et - La copie pdf
Demandez au contenu complet copié sur les métadonnées du PDF, ou au moins certains mots clés. Je n'ai pas examiné quel type de risque pourrait être impliqué ici. Cela signifierait une étape supplémentaire pour les écrivains

Solutions One et 2 signifierait le maintien d'une copie en double ... sur le serveur ou dans une base de données et reportez-vous à la réalité de téléchargement, de manière programmatique. Quelqu'un a-t-il proposé une solution pour cela? Je préférerais les capacités d'indexation car cela ne signifie aucune duplication de contenu. La solution 3 est attrayante si les métadonnées PDFS peuvent gérer ce contenu et si la sécurité est toujours intacte. Je me suis également demandé à propos de l'accès programmatique au PDF où, via C # ou VB, je peux utiliser des informations d'identification pour gagner l'accès ... mais on dirait que je peux être coincé.

Ceci est mon dernier effort de fossé pour trouver une autre solution. Toute aide serait appréciée.

La solution 2

J'ai fini par aller avec une solution complètement différente.J'ai adoré l'idée d'utiliser l'indexation de MS, mais il devient beaucoup plus facile d'utiliser SQL et d'avoir l'utilisateur qui télécharge les mots clés PDF Coller ou le contenu du PDF dans une zone de texte.Ensuite, SQL peut indexer cette "colonne" et BAMM ... un moteur de recherche fait le reste.

Merci à tout le monde d'avoir pris le temps de considérer celui-ci.

Autres conseils

Si vous avez des noms d'utilisateur et des mots de passe pour les fichiers que vous pourriez peut-être simplement ouvrir les fichiers et extraire du texte d'eux?

Ensuite, vous pourrez créer un index des données extraites.

docotic.pdf , la bibliothèque que je suis impliquée, peut ouvrir des fichiers protégés par mot de passe pour vous.Et il peut aussi extraire du texte.Le texte peut être extrait comme un texte simple ou formaté et peut être divisé par des mots ou des caractères.

Veuillez consulter les échantillons suivants:

Licencié sous: CC-BY-SA avec attribution

Non affilié à StackOverflow