Какой хороший метод извлечения текста из PDF-файла с помощью C# или классического ASP (VBScript)?[закрыто]

https://stackoverflow.com/questions/46869

09-06-2019
|

Вопрос

Есть ли хорошая библиотека для извлечения текста из PDF?Я готов заплатить за это, если придется.

Идеально было бы что-то, что работает с C# или классическим ASP (VBScript), и мне также нужно иметь возможность отделять страницы от PDF-файла.

Этот вопрос было кое-что интересное, особенно pdftotext но я бы хотел по возможности избегать вызова внешнего приложения командной строки.

Решение

Вы можете использовать интерфейс IFilter, встроенный в Windows, для извлечения текста и свойств (автор, заголовок и т. д.) из любого поддерживаемого типа файла.Это COM-интерфейс, поэтому вам придется использовать средства взаимодействия .NET.

Вам также необходимо загрузить бесплатный драйвер PDF IFilter от Adobe.

Другие советы

Вот хороший список:Библиотеки с открытым исходным кодом для PDF/C#

Большинство из них предназначены для создания PDF-файлов, но они также должны иметь возможность чтения.

Есть еще вот этот: iText

Раньше я играл только с iText.Ничего серьезного.

Мы использовали Aspose с хорошими результатами.

Библиотека Docotic.Pdf может использоваться для извлечения форматированного или обычного текста из PDF-документов.

Библиотека может читать PDF-документы любой версии (вплоть до последнего опубликованного стандарта).Извлечение страниц также поддерживается библиотекой.

Ссылки на пример кода:

Отказ от ответственности:Я работаю продавцом библиотеки.

Дополнение к утвержденному ответу:существуют также альтернативные коммерческие решения для замены Adobe IFilter для индексации текста (предоставляющие аналогичный API, но также предлагающие дополнительные функции премиум-класса):

Foxit PDF IFilter:обеспечивает гораздо более быстрое индексирование текста по сравнению с плагином Adobe.
PDFLib PDF iFilter:включает поддержку поврежденных PDF-документов, а также дополнительный API для выполнения ваших собственных запросов.

Если вы ищете единый инструмент, который можно использовать как из управляемых приложений .NET, так и из устаревших языков программирования, таких как классический ASP или VB6, то именно здесь коммерческий подход SDK ByteScout PDF Extractor подойдет, поскольку предоставляет API .NET и ActiveX/COM.

Отказ от ответственности:Я работаю в ByteScout

Лицензировано под: CC-BY-SA с атрибуция

Не связан с StackOverflow