كيفية الفهرس والبحث ملفات .doc
سؤال
لدي تطبيق يحتاج إلى الحصول على ملفات .doc التي تم تحميلها إليها. يجب أن تكون هذه المستندات بعد ذلك فهرس ويجب البحث عن المجموعة بأكملها. سيتم تشغيل هذا على خادم Windows، دون تثبيت Word، باستخدام IIS و SQLServer، لكنني لا أرتبط بفهرسة النص الكامل SQLServer.
كنت أفكر في استخدام Lucene.net لجزء الفهرسة وكان يتساءل عن أفضل طريقة للحصول على النص من ملفات .doc سيكون. من المحتمل أن استخراج النص بالقراءة في الدفق بأكمله ثم استخدام Regex لسحب أي شخصيات منتظمة، ولكن يبدو ذلك ضخمة وغير عرضة للخطأ.
لقد رأيت مقالا عن استخدام ifilters يبدو واعدا، لكنني اعتقدت أنني سأضع هذا هناك لأنه ليس شيئا على دراية به.
PS إذا كان يهم، ستحتوي ملفات .doc هذه حقول دمج البريد فيها ولا يوجد بديل حاليا لتنسيق .doc.
المحلول
فيما يتعلق بالحلول الذي لم يتطلب برنامجا خارجيا، يبدو أن الحل iFilter هو الطريقة التي يجب أن تذهب إليها (على الرغم من أنك قد تحسب ذلك كبرنامج خارجي).
إليك مقالة ورمز برمجية بسيطة في كيفية القيام به: http://www.codeproject.com/kb/cs/ifilter.aspx.
نصائح أخرى