Extraer correctamente el texto de un PDF (UTF-8)

https://stackoverflow.com//questions/10649511

pdf
text
utf-8
text-extraction
pdf-extraction

11-12-2019
|

Pregunta

Quiero extraer texto de algunos archivos PDF (programáticamente, con alguna utilidad o incluso con copiar / Pegar), pero algunos personajes están saliendo muy extraños.Aunque especifico la codificación UTF-8 al extraer el texto, los caracteres como "ş, ţ, ă", etc. parecen "" ˛ "y no" s, t, a "(o al menos el carácter mostrado). El texto se muestra correctamente, pero cuando intento copiarlo, por ejemplo, esos caracteres no están bien.
¿Hay alguna manera de extraer el texto correctamente o son los archivos PDF dañados de alguna manera (Java / C / Python, etc. o la utilidad Windows / Linux / etc)?

Solución

¿Puede extraer el texto correctamente en Acrobat del PDF?

Licenciado bajo: CC-BY-SA con atribución

No afiliado a StackOverflow