Определение " интересующих " & # 8221; на странице PDF
-
06-07-2019 - |
Вопрос
Я хочу иметь возможность определять ограничивающую рамку областей текста, изображений и путей на странице PDF, аналогично тому, что показано здесь:
http://www.windjack.com/products/screenshot/pdfcanscreenshot2.html р>
Глядя на спецификацию PDF, я вижу, как определить ограничивающие рамки путей и изображений, но не могу понять, как получить к ним текст. Нужно ли рассчитывать его вручную, определяя высоту и ширину глифов по размеру шрифта и т. Д., Или есть более простой способ?
Решение
Возможно, вы сможете начать с решения для " Как получить информацию о смещении символов из PDF-документа? " Это даст вам x, y, ширину и высоту для символов и / или подстрок в документе. Оттуда, более сложная часть состоит в том, чтобы связать группы персонажей в пространственно отличные области. Нет гарантии, что пространственно сгруппированный текст на странице будет близок друг к другу в синтаксисе формата файла ...