سؤال

لدي الآلاف من السيرة الذاتية وأريد البحث عن CVS وجود "علوم الكمبيوتر" كخلفيةهم.

هكذا، أنا غوغض وشعلت أن لوسن يفعل هذه الوظيفة وأحتاج إلى إطعام البيانات إلى لوسين وفهارس جميع المستندات.

عند البحث عن نص معين (يقول "علوم Compuet")، فهو يؤدي إلى مطابقة السير الذاتية في مطابقة النتائج.

لهذا، أحتاج إلى تحويل MSWORD-93 / MSWORD-2007 / PDF إلى النص وإطعام Lucene.

يمكنني الحصول على نص من مستندات MSWORD2007، لكنني غير قادر على الوصول من MSWORS 2003.

هناك العديد من كتاب PDF لكنني لم أحصل على أي مكتبة قارئ PDF التي يمكن أن تفعل ذلك.

يرجى إلقاء بعض الضوء على مكتبة قارئ PDF وتحويل مستندات MS93 إلى نص أو يرجى إعلامي ما إذا كان أي بدائل للبحث Lucene.

شكرا جزيلا على الإجابات

هل كانت مفيدة؟

المحلول

يمكنك استخدام Apache Solr أو مباشرة Tika لاستخراج النص من ملفات PDF و MS Word وفهرسه.كلاهما مشاريع Java، ولكن يمكنك الاتصال بخادمها من PHP.

مرخصة بموجب: CC-BY-SA مع الإسناد
لا تنتمي إلى StackOverflow
scroll top