perché sia PDFBox e pdfrenderer non possono sostenere “i caratteri aggiuntivi”?
-
23-09-2019 - |
Domanda
Ho un pdf che contiene font 'UniCNS-UCS2-H', Ho provato entrambi PDFBox e pdfrenderer, tutti gettano eccezione: codifica sconosciuta per 'UniCNS-UCS2-H'
e questo tipo di carattere è stato incluso in un file di font: mingliu.ttc (si tratta di un vero file di tipo di raccolta, non so questo è importante
?cosa posso fare per lasciare che queste due librerie di supporto font aggiuntivi?
Soluzione
La codifica di un carattere in documenti PDF è specificato nell'oggetto dizionario di font. Il tipo di carattere che si è verificato è codificato utilizzando 'UniCNS-UCS2-H', che, per quanto posso dire è una variante di codifica cinese.
PDFBox supporta solo 4 codifiche:
- PDFDocEncoding
- MacRomanEncoding
- StandardEncoding
- WinAnsiEncoding
Questi sono definiti nell'oggetto dizionario di font all'interno del pdf flusso
(Ad esempio .../Encoding/WinAnsiEncoding/...
)
Quando si incontra un PDFBox codifica sconosciuta, viene visualizzata l'eccezione da te segnalato.
Per ulteriori informazioni sui font nei documenti PDF, vedere la Sezione 9.5 tramite 9.8 del PDF specifiche