سؤال

وكيف يمكنني تحميل وثيقة مايكروسوفت وورد (doc و docx) إلى الذاكرة (متغير) دون أن تفعل هذا:؟

wordApp.Documents.Open

وأنا لا أريد لفتح مايكروسوفت وورد، أريد فقط أن النص داخل.

وما قدمتموه لي أن أجيب عن DOCX، ولكن ماذا عن DOC؟ أريد مجاني وعالية الأداء حل - عدم فتح 12.000 مثيلات Word لمعالجة كل منهم. :( Aspose هو منتج تجاري، و 900 $ هو الطريق كثيرا لما أقوم به.

هل كانت مفيدة؟

المحلول

ويمكنك استخدام wordconv.exe الذي هو جزء من حزمة توافق Office لتحويل من وثيقة إلى DOCX.

HTTP: // شبكة الاتصالات العالمية .microsoft.com / تنزيل / details.aspx؟ familyid = 941b3470-3ae9-4aee-8f43-c6bb74cd1466 وdisplaylang = أون

ومجرد استدعاء الأمر مثل ذلك: "C: ملفات \ البرنامج \ مايكروسوفت أوفيس \ OFFICE12 \ wordconv.exe" -oice -nme InputFile OutputFile

ولست متأكدا إذا كنت بحاجة إلى كلمة المثبتة من أجل أن يعمل ولكنه لا يفعل العمل. أنا استخدامها محليا كأمر ويندوز شل لتحويل ملفات مكتب القديمة إلى تنسيق 2007 كلما أريد.

نصائح أخرى

لDOCX تنسيق مستندات Word وجدت هذه المادة مثيرة للاهتمام على وCodeProject

عن طريق DocxToText استخراج النص من الملفات DOCX

في المادة المؤلف يناقش تجريد من مجرد الكلمات نفسها.

لثيقة الخاص بك (غير DOCX) مستندات Word الأخرى من استخدام واجهات برمجة التطبيقات المكتبية و(في الخلفية) وضع البيض مثيل من Word قد تتمكن من محاولة القصف الى واحدة من العديد من المحولات Doc2Docx مختلفة في السوق ومن ثم تطبيق فوق العملية على حد سواء.

إذا كنت تتعامل مع DOCX يمكنك القيام بذلك مع من يفعلون أي إمكانية التشغيل المتداخل مع Word ملف دوكإكس الواقع ZIP يحتوي على ملف XML، يمكنك قراءة XML يرجى الرجوع إلى الروابط أدناه

HTTP: / /conceptdev.blogspot.com/2007/03/open-docx-using-c-to-extract-text-for.html

مكتب (2007) توسيع تنسيقات XML ملف

وأنا في الآونة الأخيرة قمت ببعض البحوث حول هذا الموضوع. وتبين أن لتكون قادرة على التعامل مع ملفات كلمة برمجيا دون فتح الكلمة نفسها تحتاج إلى بعض الأدوات باهظة الثمن جدا.

وهناك مقال في أكثر من مشروع قانون بشأن التلاعب كلمة ، كنت قد تجد أنه من المفيد. المؤلف بناء مجمع COM C # للتعامل مع المكالمات إلى Word. يبدو أنه دفعها فعلا فتح التطبيق كلمة بالرغم من ذلك.

هذا الرد في أكثر من المنتديات neowin تبدو واعدة جدا. وهو يشتمل على عدد غير قليل PInvoked يدعو لغرض استخراج النص.

وربما لو كنت قد تجد وسيلة للحفاظ على نافذة مخبأة أنه سيكون مقبولا.

وAspose لديها عنصر لقراءة وتعديل وكتابة وثائق وورد. هنا هو رابط المنتج: <لأ href = "http://www.aspose.com/categories/file-format-components/aspose.words-for-.net-and-java/default.aspx" يختلط = "نوفولو noreferrer "> Aspose.Words ل. NET و Java

<اقتباس فقرة>   

وAspose.Words تمكن .NET و Java   تطبيقات لقراءة وتعديل وإرسال   وثائق Word® دون اللجوء إلى استخدام   مايكروسوفت Word®. الدعم Aspose.Words   مجموعة واسعة من الميزات بما في ذلك   إنشاء المستندات والمحتوى و   التلاعب التنسيق، والبريد قوية   دمج القدرات والدعم الشامل   من DOC، OOXML، RTF، WordprocessingML،   HTML، PDF المفتوحة والأشكال.   Aspose.Words هو حقا أكثر   بأسعار معقولة، وأسرع وميزة الغنية   عنصر كلمة في السوق.

docxtemplater ، يمكنك بسهولة الحصول على النص الكامل لكلمة (يعمل مع دوكإكس فقط).

وهنا الرمز (نود.جي إس)

وDocxTemplater=require('docxtemplater'); doc=new DocxTemplater().loadFromFile("input.docx"); result=doc.getFullText();

وهذا هو فقط ثلاثة خطوط للقانون ولا تعتمد على أي مثيل كلمة (جميع عادي JS)

وأنا لا أقصد أن يكون الخصم، لكن لماذا؟

ولقد استخراج البيانات من وثائق وورد على خوادم لينكس باستخدام Word2X أو أبي ورد واعتمادا على عدد وتنوع docments سيكون هناك دائما أخطاء مع الاستخراج. انها أسوأ وأكثر من الرصاص، فواصل الصفحات والأقسام وثيقة وغيرها "الخاصة" ملامح هناك.

وأنا أفهم أن هناك خيارات الآن لأتمتة أوبن أوفيس لمعالجة المستندات، ولكن نصيحتي هي، إذا كنت تستطيع، ومجرد استخدام Word لمعالجة وثائق وورد.

مرخصة بموجب: CC-BY-SA مع الإسناد
لا تنتمي إلى StackOverflow
scroll top