Pergunta

Eu procurei longe e largo. Talvez eu não saiba o que procurar ...

Eu preciso ser capaz de indexar e procurar PDFs "garantidos". Esses PDFs têm o atributo "sem cópia" selecionados e bloqueados. Significado, não há como copiar o conteúdo do PDF sem o nome de usuário e senha. O iFilter respeita essas configurações e não permitirá que o PDF seja indexado.

Estou à procura de um meio para indexar e procurar teses PDFs no meu servidor usando o ASPX.NET. Parece que estou preso com um dos seguintes:

    .
  1. Eu teria as credenciais necessárias para abrir esses PDFs para obter acesso "copiar" ao conteúdo
  2. Quando um PDF é enviado para minha ferramenta, dois itens precisarão ser enviados: A palavra cópia - e - A cópia do PDF
  3. Tenha o conteúdo completo copiado para os metadados do PDF, ou pelo menos algumas palavras-chave. Eu não olhei para que tipo de riscos poderia estar envolvido aqui. Isso significaria um passo extra para os escritores
  4. Soluções Um e 2 significam manter uma cópia duplicada ... ou no servidor ou em um dB e consulte o real para download, programaticamente. Alguém já apareceu com uma solução para isso? Eu preferiria as capacidades de indexação, pois isso significa nenhuma duplicação de conteúdo. Solução 3 é atraente se os dados de Meta PDFs puderem manipular muito conteúdo e se a segurança ainda estiver intacta. Eu também me perguntei sobre o acesso programático ao PDF onde, via C # ou VB, posso usar credenciais para obter o acesso ... Mas parece que eu posso estar preso.

    Este é o meu último esforço de Ditch para encontrar outra solução. Qualquer ajuda seria apreciada.

Foi útil?

Solução 2

Eu acabei indo com uma solução completamente diferente.Eu amei a ideia de utilizar a indexação da MS, mas está se tornando muito mais fácil usar o SQL e ter o usuário que carrega as palavras-chave de pasta PDF ou o conteúdo do PDF em uma caixa de texto.Então o SQL pode indexar que "coluna" e BAMM ... um mecanismo de pesquisa faz o resto.

Graças a todos por ter tempo para considerar este.

Outras dicas

Se você tiver nomes de usuários e senhas para os arquivos do que talvez você possa simplesmente abrir os arquivos e extrair texto deles?

Então você será capaz de criar um índice de dados extraídos.

docotic.pdf , a biblioteca estou envolvida, pode abrir arquivos protegidos por senha para você.E pode extrair texto também.O texto pode ser extraído como texto simples ou formatado e pode ser dividido por palavras ou caracteres.

Por favor, dê uma olhada nas seguintes amostras:

Licenciado em: CC-BY-SA com atribuição
Não afiliado a StackOverflow
scroll top