سؤال

أنا أستخدم مستندات Google ، وتم إنشاء بعض القوالب التي نستخدمها باستخدام MS-Office.
HTML الناتج هو سمين وقبيح ، و 500 كيلو بايت لكل قيود DOC على Google تجعل بعض التنظيف إلزاميًا. تمكنت من العثور على سمات "نمط" زائدة عن الحاجة ونقلها إلى بعض فئات CSS ، وإعادة تسمية أسماء الفئات الأكثر زائدة إلى أسماء أقصر ، مما يجعلني أنقذ حوالي 50 ٪ من الحجم الأصلي.
هل أنت على دراية ببعض الأدوات/البرامج النصية/LIB الحالية التي يمكن أن تقوم بهذه المهمة المؤلمة بالنسبة لي ، أو على الأقل مساعدتي في كتابة هذه الأداة السحرية؟

شكرا مقدما !

تحرير: لقد حاولت أن أحاول لكل من ترتيب ، و demoronizer و "إعادة الكتابة اليدوية":
- المدخلات: 140 كيلو بايت
- ترتيب: 110 كيلو بايت
- demoronized: 135 كيلو بايت

لذا فإن إجابتي المفضلة هي "إعادة كتابة ذلك!"

شكرًا !

هل كانت مفيدة؟

المحلول

MS-Office يجعل Crappy HTML ، الفترة. أنت أفضل من قضاء الوقت في إعادة بناء HTML من النص الأصلي من محاولة السير عبر حقل الألغام هذا.

لقد صنعت بعض وحدات الماكرو التي تقوم ببعض وظائف البحث/استبدالها على الكلمة للقيام بأشياء أساسية مثل الالتفاف <p> العلامات حول الفقرات وأشياء من هذا القبيل ، ثم أعد علامة كل شيء من الصفر.

نصائح أخرى

بامكانك ان تحاول مرتب سوف تنظف أشياء كثيرة.

دون التعليق على اسمها ، يمكنني أن أذكر Demoronizer, ، الذي يصفه المؤلف على النحو التالي:

... برنامج Perl متاح للتنزيل من هذا الموقع والذي يقوم بتصحيح العديد من الأخطاء وعدم التوافق في HTML التي تم إنشاؤها بواسطة تطبيقات Microsoft أو تحريرها.

ymmv.

واحدة من youndies المفضلة لدي الآن هي في الواقع Windows Live Conster - إنها تقوم بعمل أنيق من تجريد من ملفات Word Doc. قد يختلف البعض لكنني أستخدمه كثيرًا!

مرخصة بموجب: CC-BY-SA مع الإسناد
لا تنتمي إلى StackOverflow
scroll top