Che cosa è un buon convertitore da PDF a HTML per Ruby on Rails? [chiuso]

https://stackoverflow.com/questions/1900423

19-09-2019
|

Domanda

Sto cercando di convertire programatically PDF to HTML. Finora ho usato pdftohtml ma i nostri utenti non sono soddisfatti dei risultati.

Ecco quello che mi serve:

Sto usando Ruby on Rails, ma qualsiasi strumento di lavoro su Unix piacerebbe lavorare come posso chiamare da linea di comando. Ma, naturalmente, un bel gioiello o un plugin sarebbe perfetto.
Io preferirei che fosse open source
Ha bisogno di essere in grado immagini maniglia
Sarebbe bello se ci fosse la possibilità di scartare le immagini, se necessario
Si deve essere stabile
Si deve restituire HTML con un layout vicino al PDF originale (ho provato pdftohtml e il risultato non è che il bene in molti casi)

Soluzione

Qui ci sono un altro paio di alternative per pdftohtml / xpdf:

Adobe ha un PDF online gratuito per HTML o testo . Si potrebbe prendere un minuto o due per ottenere il documento indietro, ma ho il sospetto che questa opzione avrebbe darà i migliori risultati.
C'è un pdf-reader gemma rubino che vi darà accesso alle parti interne del il file PDF. Ciò comporterebbe un certo sviluppo / estensione da parte vostra, ma si potrebbe usare questo per analizzare il file PDF e generare bell'aspetto HTML. Questo potrebbe essere più facile di quanto sembri, se si conosce il tipo di file che gli utenti stanno convertendo in anticipo sui tempi (ad esempio se si sta lavorando con le forme standardizzate).
Si può avere più opzioni se si utilizza Ghostscript ( gemma trovato qui) per convertire il file PDF in un altro formato prima. La gemma in grado di generare immagini (PNG, JPG, ecc) da un file PDF, ma si può avere la migliore fortuna convertendolo in un file PostScript dato che ci sembra essere un triliardo "PostScript-to-[formato dell'inserto qui]" convertitori.

Altri suggerimenti

Per conversione da PDF a HTML, pdf2htmlEX sembra come un buon strumento (guardando tutte le esempi / campioni):

https://github.com/coolwanglu/pdf2htmlEX

Se tutto il resto fallisce, si potrebbe trasformare ogni pagina in un'immagine (utilizzando la magia di immagine o simili) e visualizzare le immagini, a la http://books.google.com o http://safari.oreilly.com . Sarebbe un maiale di larghezza di banda, ma si otterrebbe fedeltà all'originale.

Ho passato un mentre si lavora su un progetto di ricerca che ha coinvolto prendendo i PDF come input. Quello che stai chiedendo è solo un compito davvero difficile, e nessun software lo farà perfettamente. Mentre HTML ha qualche struttura, come <p>, PDF è puramente di presentazione. Un documento HTML dirà: "questo è un paragrafo. Questa è l'immagine." e la presentazione è interpretato da questo. Un documento PDF sarà essenzialmente dire: ". Questo personaggio dovrebbe essere reso alla posizione X, Y il prossimo chracter sarà reso in posizione ...", ecc Quindi, anche la costruzione di punti fuori che può essere difficile

Stavo lavorando in Java, quindi non credo che il programma specifico ho usato sarà di grande utilità per voi. Inoltre, ricordo che alcuni generatori PDF congiungere un'immagine in immagini più piccole e visualizzarli accanto all'altro -. Che è stato un dolore enorme

C'è un modo possibile che si può essere lavorare con un formato diverso, o abbassare le vostre aspettative? Si potrebbe fare la cosa immagine che Wayne suggerisce, ma poi non è davvero HTML (e non è accessibile - è che un problema per voi?). Che potrebbe solo essere qualcosa che si vive con.

Prova Usa poppler o xpdf. Ma è necessario un po 'di magia e vincolante.

http: //www.pdf-to- html-word.com/pdf-to-html che funziona veramente bene. Ho pagato per questo dopo aver controllato la sua funzionalità. Si dispone di un giro gratuito per testarlo. Oppure utilizzare Acrobat Pro e Salva come HTML con i CSS. Che funziona anche. Ma è un dolore in un ** a che fare con un gruppo di file.

Può provare questo. Ho preso un primo taglio al confezionamento Rubino intorno l'utilità pdftohtml. Gem disponibile qui: http://gemcutter.org/gems/pdftohtmlr

Dopo aver usato pdftohtml per qualche tempo e di essere soddisfatto con i risultati di visualizzazione della versione html, sto considerando utilizzando le API di Google Apps documento o l'API Scribd (il mio preferito in questo momento)

http://www.scribd.com/developers/api

Alla fine, io probabilmente usare pdftohtml per estrarre semplicemente il contenuto del testo del file pdf e l'API Scribd per visualizzare il file originale sulla pagina utente

Ho appena rilasciato una gemma rubino per convertire documenti con open office senza testa (via poyconverter o JODConverter). si integra anche altri pochi librairies (PDFTools e netpbm) per estrarre il testo dans le immagini da file PDF.

È possibile trovare qui https://github.com/itkin/proselytism.git

Sentitevi liberi di aggiungere i propri convertitori e mi segnalare alcuni problemi

Autorizzato sotto: CC-BY-SA insieme a attribuzione

Non affiliato a StackOverflow