Pergunta

Estou usando o PDFTOTEXT OpenSource Tool para converter o PDF em arquivos de texto. Como posso salvar os arquivos de texto no formato UTF-8 para que eu possa reter todos os caracteres de sotaque nos arquivos de texto. Estou usando o comando abaixo para converter que extrai o conteúdo do arquivo de texto, mas não capaz de ver caracteres acentuados.

pdftotext -enc utf -8 book1.pdf book1.txt

Por favor, me ajude a resolver este problema.

Desde já, obrigado,

Foi útil?

Solução

Você pode obter uma lista de codificações disponíveis usando o comando:

pdftotext -listenc

e escolha o certo usando o argumento -enc. O meu aqui parece fazer UTF-8 por padrão. ou seja, seu "UTF-8" é superfluente

pdftotext -enc UTF-8 your.pdf

Você pode querer verificar seu local (LC_ALL, Lang, ...).

EDITAR:Eu baixei o seguinte PDF:http://www.i18nguy.com/unicode/unicodeexample.pdf

e converteu -o em um Windows 7 PC (alemão) e XPDF 3.02PL5 usando o comando:

pdftotext.exe -enc UTF-8 unicodeexample.pdf

O arquivo de texto é definitivamente codificado UTF-8, pois todos os caracteres são exibidos corretamente. Para que você está usando o arquivo de texto? Se você estiver exibindo através de um aplicativo da Web, sua codificação de conteúdo pode estar simplesmente errada, enquanto o arquivo de texto foi convertido como você queria.

Verifique duas vezes usando um navegador (force a codificação no Firefox para ISO-8859-1 e UTF-8) ou usando um editor hexadecimal.

Outras dicas

As coisas estão ficando um pouco confusas, então estou adicionando outra resposta.

Eu desmontei o PDF e meu melhor palpite seria um "problema" com a fonte usada:

  • Abra o arquivo PDF no Reader Reader
  • Selecione todo o texto na página
  • Copie-o e cole-o em um editor de texto com reconhecimento de unicode (não há OCR "oculto", para que você esteja copiando dados reais)

Você verá que os pontos de código que você acabam não são os que você está vendo no leitor de PDF. Seja qual for a fonte, ela pode ter um mapeamento diferente do definido no padrão Unicode. Como tal, seu conteúdo é "Wront" e não há muito que você possa fazer sobre isso.

Licenciado em: CC-BY-SA com atribuição
Não afiliado a StackOverflow
scroll top