Qual è il modo migliore per estrarre il contenuto di una tabella da un gruppo di file HTML?

https://stackoverflow.com/questions/68691

09-06-2019
|

Domanda

Dopo la pulizia di una cartella piena di file HTML con ORDINE, come le tabelle contenuto di essere estratti per l'ulteriore elaborazione?

Soluzione

Dipende da che tipo di elaborazione vuoi fare.Si può dire in Ordine a generare XHTML, che è un tipo di XML, il che significa che è possibile utilizzare i normali strumenti XML come XSLT e XQuery sui risultati.

Se si desidera processo in Microsoft Excel, allora si dovrebbe essere in grado di affettare la tabella del HTML e metterlo in un file, quindi aprire il file in Excel:sarà lieto di convertire una tabella HTML in una pagina del foglio di calcolo.Si potrebbe quindi salvarlo come file CSV o come cartella di lavoro di Excel etc.(È anche possibile utilizzare questo su un server web, il ritorno di una tabella HTML, ma impostare il Content-Type intestazione application/ms-vnd.excel:Excel per aprire e importare la tabella e trasformarlo in un foglio di calcolo.)

Se si desidera CSV ad alimentare un database di poi si potrebbe andare via di Excel come prima, o se si desidera automatizzare il processo, si potrebbe scrivere un programma che utilizza XML-navigazione API di vostra scelta per scorrere le righe della tabella e salvarli come file CSV.Python Elementtree e CSV moduli vorresti fare questo abbastanza facile.

Altri suggerimenti

Ho usato Coherence per queste cose in passato con grande successo.

Dopo aver esaminato i suggerimenti, ho finito utilizzando HtmlUnit.

Con HtmlUnit, sono stato in grado di personalizzare il codice Java per aprire ogni file HTML nella cartella, passare per il tag TABLE, query ogni colonna di contenuti e di estrarre i dati necessari per creare un file CSV.

In .NET si potrebbe utilizzare HTMLAgilityPack.

Vedere questo domanda precedente su StackOverflow per ulteriori informazioni.

Se si desidera estrarre il contenuto di un tag HTML, si dovrebbe utilizzare un certo tipo di parser HTML.A tal fine ci sono un sacco là fuori e qui ci sono due che potrebbero suite vostre esigenze:

http://jtidy.sourceforge.net/
http://htmlparser.sourceforge.net/

scorrere il testo e l'Uso di espressioni regolari :)

http://www.knowledgehouse.sg

Autorizzato sotto: CC-BY-SA insieme a attribuzione

Non affiliato a StackOverflow