Indicizzazione PDF protetto senza copia selezionata
Domanda
Ho cercato in lungo e in largo. Forse non so cosa cercare ...
Devo essere in grado di indicizzare e cercare PDF "protetti". Questi PDF hanno l'attributo "No copia" selezionato e bloccato. Significato Non c'è modo di copiare il contenuto del PDF senza il nome utente e la password. IFilter rispetta queste impostazioni e non consentire al PDF di essere indicizzato.
Sto cercando un mezzo per indicizzare e cercare i pdfs PDF sul mio server usando ASPX.net. Sembrerebbe che sono bloccato con uno dei seguenti:
- .
- dovrei avere le credenziali necessarie per aprire questi PDF per ottenere l'accesso "Copia" al contenuto
- Quando un PDF viene inviato per il mio strumento, è necessario presentare due elementi: La parola copia - e - La copia PDF
- Avere il contenuto completo copiato nei meta dati del PDF o almeno alcune parole chiave. Non ho guardato in che tipo di rischi potrebbe essere coinvolto qui. Questo significherebbe un passo in più per gli scrittori
Soluzioni Uno e 2 significherebbe mantenere una copia duplicata ... sul server o in un DB e fare riferimento al download effettivo, a livello di programmazione. Qualcuno ha inventato una soluzione per questo? Preferirei le capacità di indicizzazione in quanto non significa nessuna duplicazione dei contenuti. La soluzione 3 è attraente se i meta dati dei PDFS possono gestire tanti contenuti e se la sicurezza è ancora intatta. Mi chiedevo anche l'accesso programmatico al PDF dove, via C # o VB, posso usare le credenziali per ottenere l'accesso ... ma sembra che io possa essere bloccato.
Questo è il mio ultimo sforzo di fossato per trovare un'altra soluzione. Qualsiasi aiuto sarebbe apprezzato.
Soluzione 2
Ho finito per andare con una soluzione completamente diversa.Ho adorato l'idea di utilizzare l'indicizzazione degli Stati membri, ma sta diventando molto più facile usare SQL e avere l'utente che caricamo le parole chiave in pasta PDF o il contenuto del PDF in una casella di testo.Quindi SQL può indicizzare quella "colonna" e Bamm ... un motore di ricerca fa il resto.
Grazie a tutti per aver preso il tempo per considerare questo.
Altri suggerimenti
Se hai nomi utente e password per i file che forse potresti semplicemente aprire i file ed estrarre il testo da loro?
Allora sarai in grado di costruire un indice da dati estratti.
docotica.pdf , la libreria con cui sono coinvolto, può aprire file protetti da password per te.E può estrarre anche il testo.Il testo può essere estratto come testo normale o formattato e può essere diviso per parole o caratteri.
Si prega di dare un'occhiata ai seguenti campioni: