Выполнение оптического распознавания символов в PDF-файлах из ColdFusion с использованием библиотеки Java или .NET?

https://stackoverflow.com/questions/496875

20-08-2019
|

Вопрос

Я хочу взять PDF-файл и извлечь из него любой текст.Затем я хочу сделать его доступным с помощью доступного поиска Verity в ColdFusion для поиска содержимого.

Существуют ли какие-либо библиотеки, которые уже делают это достаточно хорошо?Я включаю библиотеки Java или .NET (предпочитаемая Java) в область видимости, поскольку они могут быть вызваны из CF.

Мы были бы очень признательны за любые идеи или опыт...Спасибо!

Редактировать:Индексирование PDF-файлов работает, когда текст встроен в PDF, насколько я знаю, с помощью CF.В PDF-файлах, с которыми мне приходится иметь дело, текст сканируется как изображение.

Решение

Если у вас есть возможность запускать свое собственное программное обеспечение (т.е.Выделенный / VPS), то вы могли бы исследовать, используя Распознавание текста в Тессеракте с cfexecute преобразовать PDF-файлы в текст?

Другие советы

Verity должна иметь возможность индексировать PDF-файлы по умолчанию:

http://livedocs.adobe.com/coldfusion/6/Developing_ColdFusion_MX_Applications_with_CFML/indexSearch2.htm#1142322

У Рэя Кэмдена есть сериал из восьми частей о работа с PDF-файлами в ColdFusion 8.

Часть 7 часть серии посвящена использованию DDX для извлечения текста из PDF.

Не уверен, что это будет работать с вашими потребностями в распознавании текста, но, возможно, все же стоит обратить внимание.

В полусвязанной заметке я нашел очень аккуратный пост о кодировании и чтении штрихкодов 2D-матрицы в coldfusion.

http://www.stillnetstudios.com/2007/12/15/2d-barcodes-coldfusion/

Это могло бы решить некоторые из моих проблем, связанных с необходимостью извлечения закодированной информации, но мне все еще нужна основная часть текста.

Что касается tessnet, я тоже нашел версию .net. http://www.pixel-technology.com/freeware/tessnet2/ Если бы я мог изначально загружать файлы в формате PDF вместо TIFF..:)

Лицензировано под: CC-BY-SA с атрибуция

Не связан с StackOverflow