Определение " интересующих " & # 8221; на странице PDF

StackOverflow https://stackoverflow.com/questions/1009529

  •  06-07-2019
  •  | 
  •  

Вопрос

Я хочу иметь возможность определять ограничивающую рамку областей текста, изображений и путей на странице PDF, аналогично тому, что показано здесь:

http://www.windjack.com/products/screenshot/pdfcanscreenshot2.html

Глядя на спецификацию PDF, я вижу, как определить ограничивающие рамки путей и изображений, но не могу понять, как получить к ним текст. Нужно ли рассчитывать его вручную, определяя высоту и ширину глифов по размеру шрифта и т. Д., Или есть более простой способ?

Это было полезно?

Решение

Возможно, вы сможете начать с решения для " Как получить информацию о смещении символов из PDF-документа? " Это даст вам x, y, ширину и высоту для символов и / или подстрок в документе. Оттуда, более сложная часть состоит в том, чтобы связать группы персонажей в пространственно отличные области. Нет гарантии, что пространственно сгруппированный текст на странице будет близок друг к другу в синтаксисе формата файла ...

Лицензировано под: CC-BY-SA с атрибуция
Не связан с StackOverflow
scroll top