Индексация защищена PDF без выбора копирования

https://stackoverflow.com//questions/12698121

12-12-2019
|

Вопрос

Я искал далеко и широко. Возможно, я не знаю, что искать ...

Мне нужно иметь возможность индексировать и поискать «защищенные» PDF. Эти PDF имеют выбранные атрибуты «Нет копирования» и заблокированы. Это означает, что нет способа скопировать содержимое PDF без имени пользователя и пароля. IFILER уважает эти настройки и не позволит проиндексировать PDF.

Я ищу средство для индексации и поиска Theses PDFS на моем сервере, используя aspx.net. Казалось бы, я застрял одним из следующих:

Я бы мог бы иметь учетные данные, необходимые для открытия этих PDF, чтобы получить доступ к «скопирующему» к контенту
Когда PDF подан для моего инструмента, необходимо будет представить два элемента: Слово копирование - и - PDF Copy
имеют полный контент, скопированный на метадали PDF или, по крайней мере, некоторые ключевые слова. Я не смотрел, какие риски могут быть вовлечены здесь. Это будет означать дополнительный шаг для писателей

Решения One и 2 означают поддержание дубликата копии ... либо на сервере, либо в БД и обратитесь к фактическому для загрузки, программно. Кто-нибудь придумал решение для этого? Я бы предпочел возможности индексации, так как это не означает дублирование контента. Решение 3 привлекательно, если метаданные данные PDFS могут справиться с этим большим содержанием и если безопасность все еще не повреждена. Я также задавался вопросом о программном доступе к PDF, где, через C # или VB, я могу использовать учетные данные, чтобы получить доступ ... но похоже, что я могу застрять.

Это мое последнее усилие к роду, чтобы найти другое решение. Любая помощь будет оценена.

Решение 2

Я оказался полностью разным решением.Мне понравилась идея использования индексации M MS, но становится намного проще в использовании SQL и иметь пользователь, который загружает кнопку PDF-пасты или содержимое PDF в текстовое поле.Затем SQL может указать, что «колонна» и BAMM ... поисковая система делает остальные.

Спасибо всем за то, что нашли время, чтобы рассмотреть этот.

Другие советы

Если у вас есть имена пользователей и пароли для файлов, чем можно просто открыть файлы и извлечь текст от них?

Тогда вы сможете построить индекс из извлеченных данных.

docotic.pdf , библиотека, которой я связан, может открывать файлы, защищенные паролем для васОтказИ это может извлечь текст тоже.Текст может быть извлечен как простой или отформатированный текст и может быть разделен словами или символами.

Пожалуйста, посмотрите на следующие образцы:

Лицензировано под: CC-BY-SA с атрибуция

Не связан с StackOverflow