سؤال

أنا مطور Symfony وخادم الويب الخاص بي هو Linux. أنا بالفعل استخدم البرنامج المساعد سفلوسين.

ما هي أبسط طريقة لفهرسة ملفات PDF للبحث على خادم Linux PHP؟

  1. XPDF, ، المثبتة مثله
  2. أباتشي تيكا عبر فرع سولر سفلوسين المكون الإضافي
  3. خيار ثالث؟

شكرًا!

هل كانت مفيدة؟

المحلول

قادمة من خلفية Zend ، أوصي عمومًا باستخدام Zend_Search_lucene. مثال XPDF مستقيم للأمام ويبدو بسيطًا. XPDF مرخصة كـ GPL - إذا كان ذلك يناسب حاجتك ، فانتقل إلى رقم 1!

يمكن دمج ZF بسهولة في مشاريع Symfony الخاصة بك ، على سبيل المثال ل مكالمة تويتر.

نصائح أخرى

هناك العديد من المكتبات لاستخراج محتوى النص من PDF. مع أي من هذه ، تحتاج بعد ذلك إلى إنشاء مستند Lucene مع المحتوى. سيكون أكثرها فائدة هو تلك التي لديها بالفعل تكامل لوسين.

Apache pdfbox يمكن إنشاء لوكين وثيقة مباشرة من ملف PDF. وسوف تشمل حقول بيانات التعريف PDF وكذلك محتوى النص.

مرخصة بموجب: CC-BY-SA مع الإسناد
لا تنتمي إلى StackOverflow
scroll top