Какой хороший метод извлечения текста из PDF-файла с помощью C# или классического ASP (VBScript)?[закрыто]
-
09-06-2019 - |
Вопрос
Есть ли хорошая библиотека для извлечения текста из PDF?Я готов заплатить за это, если придется.
Идеально было бы что-то, что работает с C# или классическим ASP (VBScript), и мне также нужно иметь возможность отделять страницы от PDF-файла.
Этот вопрос было кое-что интересное, особенно pdftotext но я бы хотел по возможности избегать вызова внешнего приложения командной строки.
Решение
Вы можете использовать интерфейс IFilter, встроенный в Windows, для извлечения текста и свойств (автор, заголовок и т. д.) из любого поддерживаемого типа файла.Это COM-интерфейс, поэтому вам придется использовать средства взаимодействия .NET.
Вам также необходимо загрузить бесплатный драйвер PDF IFilter от Adobe.
Другие советы
Вот хороший список:Библиотеки с открытым исходным кодом для PDF/C#
Большинство из них предназначены для создания PDF-файлов, но они также должны иметь возможность чтения.
Есть еще вот этот: iText
Раньше я играл только с iText.Ничего серьезного.
Мы использовали Aspose с хорошими результатами.
Библиотека Docotic.Pdf может использоваться для извлечения форматированного или обычного текста из PDF-документов.
Библиотека может читать PDF-документы любой версии (вплоть до последнего опубликованного стандарта).Извлечение страниц также поддерживается библиотекой.
Ссылки на пример кода:
Отказ от ответственности:Я работаю продавцом библиотеки.
Дополнение к утвержденному ответу:существуют также альтернативные коммерческие решения для замены Adobe IFilter для индексации текста (предоставляющие аналогичный API, но также предлагающие дополнительные функции премиум-класса):
- Foxit PDF IFilter:обеспечивает гораздо более быстрое индексирование текста по сравнению с плагином Adobe.
- PDFLib PDF iFilter:включает поддержку поврежденных PDF-документов, а также дополнительный API для выполнения ваших собственных запросов.
Если вы ищете единый инструмент, который можно использовать как из управляемых приложений .NET, так и из устаревших языков программирования, таких как классический ASP или VB6, то именно здесь коммерческий подход SDK ByteScout PDF Extractor подойдет, поскольку предоставляет API .NET и ActiveX/COM.
Отказ от ответственности:Я работаю в ByteScout