Frage

Ich bin mit Google Text & Tabellen und einige Vorlagen, die wir verwenden, wurden unter Verwendung von MS-Office erstellt.
Der resultierende HTML ist fett und hässlich, und die 500 KB pro doc Beschränkung auf Google macht einige Bereinigungs obligatorisch. Ich war in der Lage redundant „Stil“ Attribute und verschieben Sie sie in einige CSS-Klasse zu finden, und benennen Sie die meisten redundanten Klassen Namen zu kürzeren, die ich etwa 50% der ursprünglichen Größe macht speichern.
Sind Sie sich bewusst von einigen bestehenden Tools / scripts / lib, die diese schmerzliche Job für mich tun könnte, oder zumindest mir helfen, dieses magische Werkzeug zu schreiben?

Vielen Dank im Voraus!

EDIT: Ich gab einen Versuch, um sowohl ordentlich, demoronizer und "manuell Rewrite":
- Eingang: 140Kb
- Tidy'ed: 110Kb
- Demoronized: 135KB

Also mein Liebling Antwort sein wird, „es neu schreiben!“

Danke!

War es hilfreich?

Lösung

MS-Office macht crappy HTML, period. Du bist besser Zeit zu verbringen, den HTML-Code aus dem ursprünglichen Text wieder aufzubauen als zu versuchen, durch dieses Minenfeld zu gehen.

ich ein paar Makros gemacht, die einige Such tun / auf Word-Funktionen ersetzen grundlegende Dinge wie Wrap <p> Tags um Absätze und Sachen wie das zu tun, dann wieder Markup das Ganze von Grund auf neu.

Andere Tipps

Sie könnten versuchen, ordentlich es werden viele Dinge aufzuräumen.

Ohne auf seinen Namen zu kommentieren, konnte ich erwähnen demoronizer , die der Autor beschreibt, wie :

  

... ein Perl-Programm zur Verfügung, um von dieser Seite herunterzuladen, die von oder bearbeitet mit Microsoft-Anwendungen generierten zahlreiche Fehler und Inkompatibilitäten in HTML korrigiert.

YMMV.

Einer meiner Lieblings-Utilities ist jetzt eigentlich Windows Live Writer - es ist eine saubere Arbeit Müll aus Word-doc-Dateien von Strippen. Manche mögen das anders sehen, aber ich benutze es ziemlich oft!

Lizenziert unter: CC-BY-SA mit Zuschreibung
Nicht verbunden mit StackOverflow
scroll top