Frage

Nachdem Sie einen Ordner voll von HTML-Dateien mit TIDY Reinigung, wie kann der Tabellen Inhalt zur weiteren Verarbeitung extrahiert werden?

War es hilfreich?

Lösung

Abhängig von welcher Art von Verarbeitung, die Sie tun mögen. Sie können Tidy sagen zu XHTML zu erzeugen, die eine Art von XML ist, was bedeutet, dass Sie alle gängigen XML-Tools wie XSLT und XQuery auf die Ergebnisse verwenden können.

Wenn Sie sie in Microsoft Excel bearbeiten möchten, dann sollten Sie in der Lage sein, den Tisch zu schneiden aus dem HTML und steckte es in eine Datei, öffnen Sie dann die Datei in Excel: es wird gerne eine HTML-Tabelle konvertieren, um ein Tabelle Seite. Sie könnten dann als CSV speichern oder als Excel-Arbeitsmappe usw. (Sie können auch diese auf einem Web-Server verwenden - eine HTML-Tabelle zurück, sondern setzen Sie den Content-Type Header application/ms-vnd.excel: Excel öffnen und die Tabelle importieren und drehen Sie es um eine Tabelle).

Wenn Sie CSV möchten eine Datenbank einspeisen, dann können Sie über Excel gehen wie vorher, oder wenn Sie den Prozess automatisieren möchten, können Sie ein Programm schreiben, das die XML-Navigation API Ihrer Wahl verwendet der iterieren Tabellenzeilen und als CSV speichern. Pythons elementtree und CSV-Module würde dies ziemlich einfach machen.

Andere Tipps

ich verwendet habe BeautifulSoup für solche Dinge in der Vergangenheit mit großem Erfolg.

die Vorschläge Nach der Überprüfung, ich Liquidation mit Htmlunit .

Mit Htmlunit, konnte ich den Java-Code anpassen jede HTML-Datei in den Ordner zu öffnen, navigieren Sie zu dem TABLE-Tag, Abfrage jede Spalte Inhalt und extrahiert die Daten, die ich benötigen, um eine CSV-Datei zu erstellen.

In .NET könnten Sie HTMLAgilityPack .

Sehen Sie diese vorherige Frage auf Stackoverflow für weitere Informationen.

Wenn Sie den Inhalt aus dem die HTML-Markup extrahieren möchten, sollten Sie irgendeine Art von HTML-Parser verwenden. Zu diesem Zweck gibt es viele da draußen, und hier sind zwei, die Suite Ihre Bedürfnisse könnten:

http://jtidy.sourceforge.net/
http://htmlparser.sourceforge.net/

iterieren durch den Text und verwenden regulären Ausdruck:)

http://www.knowledgehouse.sg

Lizenziert unter: CC-BY-SA mit Zuschreibung
Nicht verbunden mit StackOverflow
scroll top