سؤال

أرغب في تحويل مستندات Doc / Docx إلى HTML الدلالي.

بعض الرغبات / المتطلبات:

  1. HTML الدلالي مثل الرؤوس في المستندu003Ch1 style=";text-align:right;direction:rtl"> ،u003Ch2 style=";text-align:right;direction:rtl"> الخ، الجداول هيu003Ctable style=";text-align:right;direction:rtl"> وهكذا دواليك.

  2. يجب أن يكون من الممكن أن يكون من الممكن التعامل مع العناوين والقوائم والجداول والصور. الرسوم البيانية وصيغ الرياضيات هو إضافي لطيف.

• لا يجب أن يتم تحويلها مباشرة من DOC / DOCX إلى HTML، يمكن استخدام تنسيق وسيط، مثل XML أو Docbook.

• يجب أن تعمل ببرمادة، ومع عدد كبير من الوثائق.

أقرب شيء إلى حل قمت به حتى الآن http://holloway.co.nz/docvert/index.html., لكن لسوء الحظ، هناك العديد من الأخطاء وقاعدة مستخدم صغيرة ولا يمكنها التعامل مع الكثير من المستندات. أكثر من دليل على المفهوم.

هل كانت مفيدة؟

المحلول

هناك أداة تسمى المهوى الصاعد الذي قادر على تحويل مستندات Word إلى XML.

نصائح أخرى

"رؤوس الوثيقة" أعتقد أن هذا مستحيل. لأن MS Word اكتب فقط النتيجة، مع أنماط مختلفة من <p>تماما مثل النص المطبوع على الورق، لا يتم تسجيل المعلومات الأصلية.

رغباتك الأخرى يمكن الاتصال بها. هناك نوعان من أدوات تجارية يمكن القيام بذلك (لا تصدق هذه الأدوات المجانية أو الأدوات عبر الإنترنت، فهي لا تفعل العمل الحقيقي.)

1 منظف كلمة بواسطة zapadoo www.zapadoo.com
2 نظافة HTML لكلمة من قبل ستوديو Wonderwww.htmlcleaner.com.

أنا أفضل الثانية التي صدرت في العام الماضي فقط. يمكنك تجربتها على حد سواء.

يكتب DocX4J (ل Docx فقط، وليس Doc) إخراج HTML نظيف. كنت بحاجة لتغيير الأشياء قليلا إذا كنت تريدu003Ch1 style=";text-align:right;direction:rtl"> بدلاً منu003Cp class="h1" style=";text-align:right;direction:rtl"> ، ولكن مصدرها المفتوح حتى تتمكن من القيام بذلك.

كتبت أداة مساعدة تنفذ المتطلبات التي أدرجتها، باستثناء الصور والرسوم البيانية وصيغ الرياضيات. إنها جودة بيتا (أي يعمل على جهازي). لقد نشرت في http://www.modeltext.com/word.

فقط المزيد من الأفكار.

استخدم Gmail لتحويل مستندات Word

http://www.oreillynet.com/mac/blog/2006/05/use_gmail_to_convert_word_docs.html.

مرخصة بموجب: CC-BY-SA مع الإسناد
لا تنتمي إلى StackOverflow
scroll top