Indexierung des gesicherten PDFs ohne ausgewählte Kopie

https://stackoverflow.com//questions/12698121

12-12-2019
|

Frage

Ich habe weit und breit gesucht. Vielleicht weiß ich nicht, nach wem ich suchen soll ...

Ich muss in der Lage sein, "gesicherte" PDFs indexieren und zu suchen. Diese PDFs verfügen über das Attribut "NO COPY" ausgewählt und sind gesperrt. Bedeutung Es gibt keine Möglichkeit, den Inhalt des PDF ohne Benutzername und Kennwort zu kopieren. IFilter respektiert diese Einstellungen und lässt den PDF nicht zu indiziert sein.

Ich suche ein Mittel zum Index, um THEES-PDFs auf meinem Server mithilfe von ASPX.NET zu indexieren und zu suchen. Es scheint, dass ich mit einem der folgenden Schritte stecken bin:

Ich könnte die Anmeldeinformationen haben, die zum Öffnen dieser PDFs erforderlich sind, um den Zugriff auf den Zugriff auf den Inhalt zu erhalten
Wenn ein PDF für mein Werkzeug eingereicht wird, müssen zwei Elemente eingereicht werden: Das Wort kopieren - und - Die PDF-Kopie
Habe den vollständigen Inhalt, der in die Metadaten des PDFs kopiert ist, oder zumindest einige Schlüsselwörter. Ich habe nicht in die Art von Risiken gesucht, die hier involviert sein könnten. Dies würde einen zusätzlichen Schritt für die Schriftsteller

-Lösungen 1 und 2 würden bedeuten, ein doppelter Kopieren aufrechtzuerhalten ... entweder auf dem Server oder in einem dB und siehe den tatsächlichen Download, programmgesteuert. Hat jemand dafür eine Lösung gefunden? Ich würde die Indexierungsfunktionen bevorzugen, da es keine Vervielfältigung von Inhalten bedeutet. Lösung 3 ist ansprechend, wenn die PDFS-Metadaten so viel Inhalt behandeln können und wenn die Sicherheit noch intakt ist. Ich habe mich auch über den programmatischen Zugriff auf das PDF gefragt, wo über C # oder VB Anmeldeinformationen verwenden kann, um den Zugang zu erhalten ... aber es sieht so aus, als ob ich stecken kann.

Dies ist mein letzter Graben, eine andere Lösung zu finden. Jede Hilfe würde geschätzt werden.

Lösung 2

Ich landete mit einer völlig anderen Lösung.Ich habe die Idee, MS's Indexing zu nutzen, aber es wird viel einfacher, SQL zu verwenden, und hat den Benutzer, der die PDF-Fast-Schlüsselwörter lädt, oder den Inhalt des PDF in ein Textfeld.Dann kann SQL index, dass "Spalte" und Bamm ... Eine Suchmaschine ist der Rest.

Vielen Dank, dass Sie sich die Zeit genommen haben, um dieses einzunehmen.

Andere Tipps

Wenn Sie Benutzernamen und Kennwörter für die Dateien haben, als möglicherweise die Dateien öffnen und Text von ihnen extrahieren?

Sie können dann einen Index aus extrahierten Daten erstellen.

docotic.pdf , die Bibliothek, mit der ich beteiligt bin, kann passwortgeschützte Dateien für Sie öffnen.Und es kann auch Text extrahieren.Text kann als einfacher oder formatierter Text extrahiert und kann durch Wörter oder Zeichen aufgeteilt werden.

Bitte schauen Sie sich folgende Proben an:

Lizenziert unter: CC-BY-SA mit Zuschreibung

Nicht verbunden mit StackOverflow