Индексация защищена PDF без выбора копирования
Вопрос
Я искал далеко и широко. Возможно, я не знаю, что искать ...
Мне нужно иметь возможность индексировать и поискать «защищенные» PDF. Эти PDF имеют выбранные атрибуты «Нет копирования» и заблокированы. Это означает, что нет способа скопировать содержимое PDF без имени пользователя и пароля. IFILER уважает эти настройки и не позволит проиндексировать PDF.
Я ищу средство для индексации и поиска Theses PDFS на моем сервере, используя aspx.net. Казалось бы, я застрял одним из следующих:
- Я бы мог бы иметь учетные данные, необходимые для открытия этих PDF, чтобы получить доступ к «скопирующему» к контенту
- Когда PDF подан для моего инструмента, необходимо будет представить два элемента: Слово копирование - и - PDF Copy
- имеют полный контент, скопированный на метадали PDF или, по крайней мере, некоторые ключевые слова. Я не смотрел, какие риски могут быть вовлечены здесь. Это будет означать дополнительный шаг для писателей
Решения One и 2 означают поддержание дубликата копии ... либо на сервере, либо в БД и обратитесь к фактическому для загрузки, программно. Кто-нибудь придумал решение для этого? Я бы предпочел возможности индексации, так как это не означает дублирование контента. Решение 3 привлекательно, если метаданные данные PDFS могут справиться с этим большим содержанием и если безопасность все еще не повреждена. Я также задавался вопросом о программном доступе к PDF, где, через C # или VB, я могу использовать учетные данные, чтобы получить доступ ... но похоже, что я могу застрять.
Это мое последнее усилие к роду, чтобы найти другое решение. Любая помощь будет оценена.
Решение 2
Я оказался полностью разным решением.Мне понравилась идея использования индексации M MS, но становится намного проще в использовании SQL и иметь пользователь, который загружает кнопку PDF-пасты или содержимое PDF в текстовое поле.Затем SQL может указать, что «колонна» и BAMM ... поисковая система делает остальные.
Спасибо всем за то, что нашли время, чтобы рассмотреть этот.
Другие советы
Если у вас есть имена пользователей и пароли для файлов, чем можно просто открыть файлы и извлечь текст от них?
Тогда вы сможете построить индекс из извлеченных данных.
docotic.pdf , библиотека, которой я связан, может открывать файлы, защищенные паролем для васОтказИ это может извлечь текст тоже.Текст может быть извлечен как простой или отформатированный текст и может быть разделен словами или символами.
Пожалуйста, посмотрите на следующие образцы: