باستخدام Solr Cell extractingRequestHandler لفهرسة/استخراج الملفات من تنسيقات الحزمة

StackOverflow https://stackoverflow.com/questions/4017200

سؤال

هل يمكنك استخدام ExtractingRequestHandler و Tika مع أي من تنسيقات الملفات المضغوطة (ZIP ، TAR ، GZ ، إلخ) لاستخراج المحتوى للخارج للفهرسة؟

أنا أرسل solr ملف Archived.tar باستخدام Curl. لفة "http: // localhost: 8983/solr/update/extract؟ piteral.id = doc1 & fmap.content = body_texts & commice = true"-H 'content-type: application/octet-stream'-data-binary"@/home/charived.tar "النتيجة التي أحصل عليها عند الاستعلام عن المستند هي أن أسماء الملفات الموجودة داخل الأرشيف يتم فهرستها على أنها" body_texts "، ولكن لم يتم استخراج محتوى هذه الملفات أو تضمينه. هذا ليس هو السلوك الذي توقعته. المرجع:http://www.lucidimagination.com/community/hear-from-the-experts/articles/content-extraction-tika#article.tika.example. عندما أرسل 1 من المستندات الفعلية داخل الأرشيف باستخدام نفس الأمر Curl ، يتم تخزين المحتوى المستخرج في حقل "body_texts". هل أفتقد خطوة للملفات المضغوطة؟

لقد أضفت جميع تبعيات الاستخراج كما هو موضح بواسطة MAT فيhttp://outoftime.lighthouseapp.com/projects/20339/tickets/98-solr-cell وأنا قادر على استخراج البيانات بنجاح من مستندات MS Word و PDF و HTML.

أنا أستخدم إصدارات المكتبة التالية. SOLR 1.40 ، SOLR Cell 1.4.1 ، مع Tika Core 0.4

بالنظر إلى كل ما قرأته هذا الإصدار من Tika ، يجب أن يدعم استخراج البيانات من جميع الملفات داخل ملف مضغوط. نقدر اي مساعدات او اقتراحات.

هل كانت مفيدة؟

المحلول

الجواب القصير: Solr Cell 1.4.1 و Tika Core 0.6.

الجواب الطويل: بعد الكثير من الصداع ، تمكنت من الحصول على هذا العمل. سأجيب على كل من الأشخاص الذين يستخدمون SOLR مباشرة وللأشخاص الذين يستخدمون Solr مع Sunspot Ruby Library (التي كانت مشكلتي).

هنا كان ما فعلته: استخدمت هذا https://github.com/tomasc/sunspot_cell البرنامج المساعد لتوسيع نطاق الشمس ومنحه ميزة المرفق. (تجاهل هذه الخطوة إذا كنت لا تستخدم Ruby/Sunspot)

v1.4.1 يعمل للملفات الفردية ولكن ليس مع الملفات المضغوطة ، لذلك اضطررت إلى استكشاف قليلا. لقد قمت بتنزيل قاعدة كود V1.4.1 من http://lucene.apache.org/solr/ وأمسك ب dist/apache-solr-cell-1.4.1.jar ثم اضطررت إلى سحب مكتبات Tika من الفرع 1.5 http://svn.apache.org/viewvc/lucene/solr/branches/branch-1.5-dev/contrib/extraction/lib/.

يمكنك تنزيل كل فرد ، أو يمكنك استخدام SVN للتغلب على الفرع بواسطة

svn co http://svn.apache.org/repos/asf/lucene/solr/branches/branch-1.5-dev

أو مجرد الخروج من مجلد المكتبة:

svn co http://svn.apache.org/repos/asf/lucene/solr/branches/branch-1.5-dev/contrib/extraction/lib/
مرخصة بموجب: CC-BY-SA مع الإسناد
لا تنتمي إلى StackOverflow
scroll top