Indexação protegida pdf sem cópia selecionada

https://stackoverflow.com//questions/12698121

12-12-2019
|

Pergunta

Eu procurei longe e largo. Talvez eu não saiba o que procurar ...

Eu preciso ser capaz de indexar e procurar PDFs "garantidos". Esses PDFs têm o atributo "sem cópia" selecionados e bloqueados. Significado, não há como copiar o conteúdo do PDF sem o nome de usuário e senha. O iFilter respeita essas configurações e não permitirá que o PDF seja indexado.

Estou à procura de um meio para indexar e procurar teses PDFs no meu servidor usando o ASPX.NET. Parece que estou preso com um dos seguintes:

Eu teria as credenciais necessárias para abrir esses PDFs para obter acesso "copiar" ao conteúdo
Quando um PDF é enviado para minha ferramenta, dois itens precisarão ser enviados: A palavra cópia - e - A cópia do PDF
Tenha o conteúdo completo copiado para os metadados do PDF, ou pelo menos algumas palavras-chave. Eu não olhei para que tipo de riscos poderia estar envolvido aqui. Isso significaria um passo extra para os escritores

Soluções Um e 2 significam manter uma cópia duplicada ... ou no servidor ou em um dB e consulte o real para download, programaticamente. Alguém já apareceu com uma solução para isso? Eu preferiria as capacidades de indexação, pois isso significa nenhuma duplicação de conteúdo. Solução 3 é atraente se os dados de Meta PDFs puderem manipular muito conteúdo e se a segurança ainda estiver intacta. Eu também me perguntei sobre o acesso programático ao PDF onde, via C # ou VB, posso usar credenciais para obter o acesso ... Mas parece que eu posso estar preso.

Este é o meu último esforço de Ditch para encontrar outra solução. Qualquer ajuda seria apreciada.

Solução 2

Eu acabei indo com uma solução completamente diferente.Eu amei a ideia de utilizar a indexação da MS, mas está se tornando muito mais fácil usar o SQL e ter o usuário que carrega as palavras-chave de pasta PDF ou o conteúdo do PDF em uma caixa de texto.Então o SQL pode indexar que "coluna" e BAMM ... um mecanismo de pesquisa faz o resto.

Graças a todos por ter tempo para considerar este.

Outras dicas

Se você tiver nomes de usuários e senhas para os arquivos do que talvez você possa simplesmente abrir os arquivos e extrair texto deles?

Então você será capaz de criar um índice de dados extraídos.

docotic.pdf , a biblioteca estou envolvida, pode abrir arquivos protegidos por senha para você.E pode extrair texto também.O texto pode ser extraído como texto simples ou formatado e pode ser dividido por palavras ou caracteres.

Por favor, dê uma olhada nas seguintes amostras:

Licenciado em: CC-BY-SA com atribuição

Não afiliado a StackOverflow