Выполнение оптического распознавания символов в PDF-файлах из ColdFusion с использованием библиотеки Java или .NET?
-
20-08-2019 - |
Вопрос
Я хочу взять PDF-файл и извлечь из него любой текст.Затем я хочу сделать его доступным с помощью доступного поиска Verity в ColdFusion для поиска содержимого.
Существуют ли какие-либо библиотеки, которые уже делают это достаточно хорошо?Я включаю библиотеки Java или .NET (предпочитаемая Java) в область видимости, поскольку они могут быть вызваны из CF.
Мы были бы очень признательны за любые идеи или опыт...Спасибо!
Редактировать:Индексирование PDF-файлов работает, когда текст встроен в PDF, насколько я знаю, с помощью CF.В PDF-файлах, с которыми мне приходится иметь дело, текст сканируется как изображение.
Решение
Если у вас есть возможность запускать свое собственное программное обеспечение (т.е.Выделенный / VPS), то вы могли бы исследовать, используя Распознавание текста в Тессеракте с cfexecute
преобразовать PDF-файлы в текст?
Другие советы
Verity должна иметь возможность индексировать PDF-файлы по умолчанию:
У Рэя Кэмдена есть сериал из восьми частей о работа с PDF-файлами в ColdFusion 8.
Часть 7 часть серии посвящена использованию DDX для извлечения текста из PDF.
Не уверен, что это будет работать с вашими потребностями в распознавании текста, но, возможно, все же стоит обратить внимание.
В полусвязанной заметке я нашел очень аккуратный пост о кодировании и чтении штрихкодов 2D-матрицы в coldfusion.
http://www.stillnetstudios.com/2007/12/15/2d-barcodes-coldfusion/
Это могло бы решить некоторые из моих проблем, связанных с необходимостью извлечения закодированной информации, но мне все еще нужна основная часть текста.
Что касается tessnet, я тоже нашел версию .net. http://www.pixel-technology.com/freeware/tessnet2/ Если бы я мог изначально загружать файлы в формате PDF вместо TIFF..:)