Pregunta

Quiero extraer texto de algunos archivos PDF (programáticamente, con alguna utilidad o incluso con copiar / Pegar), pero algunos personajes están saliendo muy extraños.Aunque especifico la codificación UTF-8 al extraer el texto, los caracteres como "ş, ţ, ă", etc. parecen "" ˛ "y no" s, t, a "(o al menos el carácter mostrado). El texto se muestra correctamente, pero cuando intento copiarlo, por ejemplo, esos caracteres no están bien.
¿Hay alguna manera de extraer el texto correctamente o son los archivos PDF dañados de alguna manera (Java / C / Python, etc. o la utilidad Windows / Linux / etc)?

¿Fue útil?

Solución

¿Puede extraer el texto correctamente en Acrobat del PDF?

Licenciado bajo: CC-BY-SA con atribución
No afiliado a StackOverflow
scroll top