Domanda

Quello che i miei utenti faranno è selezionare un documento PDF sul proprio computer, caricarlo sul mio sito Web, dove lo convertirò in un documento HTML da visualizzare sul sito Web. Il documento verrà archiviato in un database dopo la conversione.

Qual è il modo migliore per convertire un PDF in HTML?

Mi è stato assegnato un requisito in cui un utente avrebbe creato una "notizia" storia come pdf e poi lo caricherà sul server, dove verrà convertito in HTML e visualizzato sul sito Web.

È stato utile?

Soluzione

Qualsiasi software di creazione di documenti che può salvare documenti come PDF può salvarli come HTML. Suppongo che il problema sia che i tuoi utenti creeranno ricchi documenti (molte immagini incorporate), il che si traduce in più file e i tuoi requisiti derivano dal desiderio di rendere il caricamento di questi documenti il ??più semplice possibile per l'utente.

Esistono numerosi pacchetti di conversione che possono probabilmente farlo per te, tuttavia quando parli di contenuti ricchi, stai parlando di testo più immagini. Queste immagini devono essere archiviate da qualche parte e servite in qualche modo, e qualunque metodo di conversione tu utilizzi ti richiederà di esaminare tutte le fonti di immagini per assicurarti che puntino a posizioni valide sul tuo server.

Vorrei suggerire un modo alternativo per farlo che puoi portare al tuo team: implementare una delle tante API del blog per pubblicare contenuti. Esistono pacchetti software gratuiti e commerciali che utilizzano queste API per pubblicare contenuti direttamente su un sito Web, come Windows Live Writer e Microsoft Word. I tuoi utenti possono semplicemente creare i loro contenuti e caricarli direttamente sul tuo sito Web senza dover prima pubblicarli come PDF, quindi caricarli. Quindi il processo diventa molto più agevole per i tuoi utenti e ottieni i post in una forma che non richiede di spendere migliaia di dollari per lo sviluppo o l'acquisto di codice di conversione.

Le due API più comuni sono le API MetaWeblog e le API di tipo mobile . Entrambi sono molto semplici e facili da implementare. Penso che in questo modo sarebbe un'alternativa MOLTO migliore di quello che stai pensando di fare.

Altri suggerimenti

Non credo che convertire un PDF in una stringa HTML sia necessariamente la migliore idea, soprattutto se si desidera esportarlo nuovamente come PDF. I file PDF spesso contengono elementi binari come le immagini, quindi potrebbe essere meglio convertirli in ASCII tramite una codifica, come Base64. In questo modo avrai una stringa ASCII che puoi salvare in un campo di testo nel DB e poi convertirlo indietro. Potresti espandere di più sul requisito principale?

La mia raccomandazione sarebbe di non farlo in questo modo SE POSSIBILE (ma sappiamo tutti come sono i manager) quindi ...

Ti consiglio di stare lontano dalla conversione del PDF in / da HTML (perché se non riesci a trovare una soluzione commerciale sarà quasi impossibile) e invece fai come è già stato menzionato e memorizzalo come stringa Base64 codificata o BLOB o qualche altro formato binario nel database, quindi visualizzarlo all'utente con una sorta di plug-in di visualizzazione PDF per il browser.

È bastata una semplice ricerca su Google per " da PDF a HTML " ;: http: // www .gnostice.com / pdf2manyOverview_x.asp . Sono sicuro che ce ne sono altri.

Quindi, sebbene sia "possibile", potresti voler spiegare al tuo manager che questa non è la migliore soluzione di gestione dei contenuti.

Perché non utilizzare iTextSharp per leggere il contenuto PDF? Quindi è possibile salvare sia il PDF binario che il contenuto del testo nel database. È quindi possibile consentire agli utenti di cercare il contenuto e scaricare il PDF.

Dovresti esaminare DynamicPDF. Hanno un convertitore (attualmente Beta) che serve esattamente a questo scopo. Abbiamo utilizzato i loro prodotti con grande successo (soprattutto per scaricare i report di Reporting Services direttamente in PDF).

Rif: http://www.dynamicpdf.com/

Autorizzato sotto: CC-BY-SA insieme a attribuzione
Non affiliato a StackOverflow
scroll top