سؤال

لدي تطبيق يحتاج إلى الحصول على ملفات .doc التي تم تحميلها إليها. يجب أن تكون هذه المستندات بعد ذلك فهرس ويجب البحث عن المجموعة بأكملها. سيتم تشغيل هذا على خادم Windows، دون تثبيت Word، باستخدام IIS و SQLServer، لكنني لا أرتبط بفهرسة النص الكامل SQLServer.

كنت أفكر في استخدام Lucene.net لجزء الفهرسة وكان يتساءل عن أفضل طريقة للحصول على النص من ملفات .doc سيكون. من المحتمل أن استخراج النص بالقراءة في الدفق بأكمله ثم استخدام Regex لسحب أي شخصيات منتظمة، ولكن يبدو ذلك ضخمة وغير عرضة للخطأ.

لقد رأيت مقالا عن استخدام ifilters يبدو واعدا، لكنني اعتقدت أنني سأضع هذا هناك لأنه ليس شيئا على دراية به.

PS إذا كان يهم، ستحتوي ملفات .doc هذه حقول دمج البريد فيها ولا يوجد بديل حاليا لتنسيق .doc.

هل كانت مفيدة؟

المحلول

فيما يتعلق بالحلول الذي لم يتطلب برنامجا خارجيا، يبدو أن الحل iFilter هو الطريقة التي يجب أن تذهب إليها (على الرغم من أنك قد تحسب ذلك كبرنامج خارجي).

إليك مقالة ورمز برمجية بسيطة في كيفية القيام به: http://www.codeproject.com/kb/cs/ifilter.aspx.

نصائح أخرى

في التطبيقات المستندة إلى PHP، استخدمنا دائما البرامج الخارجية المشابهة لهذا واحد: Doc2txt.. وبعد ثم أخذنا النص وحفظه في قاعدة البيانات. إذا كنت تبحث على Google عن "Doc2txt"، فستجد العديد من البرامج المختلفة التي تعمل بالضبط نفس الشيء. فقط خذ الشخص الذي يناسبك بشكل أفضل.

ربما تريد الخروج سولر.

مرخصة بموجب: CC-BY-SA مع الإسناد
لا تنتمي إلى StackOverflow
scroll top