Question

Je veux pouvoir déterminer le cadre de sélection contenant des zones de texte, des images et des chemins sur une page PDF, similaire à ce qui est présenté ici:

http://www.windjack.com/products/screenshot/pdfcanscreenshot2.html

En regardant les spécifications PDF, je peux voir comment déterminer les boîtes englobantes des chemins et des images, mais je ne vois pas comment leur arriver pour le texte. Dois-je le calculer à la main, en déterminant la hauteur et la largeur des glyphes à partir de la taille de la police, etc., ou existe-t-il un moyen plus simple?

Était-ce utile?

La solution

Vous pourrez peut-être commencer avec la solution " Comment obtenir des informations de décalage de caractère à partir d'un document pdf? " Cela vous donnera les valeurs x, y, largeur et hauteur des caractères et / ou des sous-chaînes du document. À partir de là, le plus difficile est de lier les groupes de caractères dans des régions spatialement distinctes. Rien ne garantit que les textes regroupés spatialement sur une page seront proches les uns des autres dans la syntaxe du format de fichier ...

Licencié sous: CC-BY-SA avec attribution
Non affilié à StackOverflow
scroll top