Indexação protegida pdf sem cópia selecionada
Pergunta
Eu procurei longe e largo. Talvez eu não saiba o que procurar ...
Eu preciso ser capaz de indexar e procurar PDFs "garantidos". Esses PDFs têm o atributo "sem cópia" selecionados e bloqueados. Significado, não há como copiar o conteúdo do PDF sem o nome de usuário e senha. O iFilter respeita essas configurações e não permitirá que o PDF seja indexado.
Estou à procura de um meio para indexar e procurar teses PDFs no meu servidor usando o ASPX.NET. Parece que estou preso com um dos seguintes:
- .
- Eu teria as credenciais necessárias para abrir esses PDFs para obter acesso "copiar" ao conteúdo
- Quando um PDF é enviado para minha ferramenta, dois itens precisarão ser enviados: A palavra cópia - e - A cópia do PDF
- Tenha o conteúdo completo copiado para os metadados do PDF, ou pelo menos algumas palavras-chave. Eu não olhei para que tipo de riscos poderia estar envolvido aqui. Isso significaria um passo extra para os escritores
Soluções Um e 2 significam manter uma cópia duplicada ... ou no servidor ou em um dB e consulte o real para download, programaticamente. Alguém já apareceu com uma solução para isso? Eu preferiria as capacidades de indexação, pois isso significa nenhuma duplicação de conteúdo. Solução 3 é atraente se os dados de Meta PDFs puderem manipular muito conteúdo e se a segurança ainda estiver intacta. Eu também me perguntei sobre o acesso programático ao PDF onde, via C # ou VB, posso usar credenciais para obter o acesso ... Mas parece que eu posso estar preso.
Este é o meu último esforço de Ditch para encontrar outra solução. Qualquer ajuda seria apreciada.
Solução 2
Eu acabei indo com uma solução completamente diferente.Eu amei a ideia de utilizar a indexação da MS, mas está se tornando muito mais fácil usar o SQL e ter o usuário que carrega as palavras-chave de pasta PDF ou o conteúdo do PDF em uma caixa de texto.Então o SQL pode indexar que "coluna" e BAMM ... um mecanismo de pesquisa faz o resto.
Graças a todos por ter tempo para considerar este.
Outras dicas
Se você tiver nomes de usuários e senhas para os arquivos do que talvez você possa simplesmente abrir os arquivos e extrair texto deles?
Então você será capaz de criar um índice de dados extraídos.
docotic.pdf , a biblioteca estou envolvida, pode abrir arquivos protegidos por senha para você.E pode extrair texto também.O texto pode ser extraído como texto simples ou formatado e pode ser dividido por palavras ou caracteres.
Por favor, dê uma olhada nas seguintes amostras: