سؤال

بحثت بعيدا وواسع. ربما لا أعرف ماذا أبحث عن ...

أحتاج إلى أن أكون قادرا على الفهرس والبحث في ملفات PDF "المضمونة". تحتوي هذه ملفات PDF على سمة "لا نسخ" مختارة وتأمينها. وهذا يعني أنه لا توجد وسيلة لنسخ محتوى PDF دون اسم المستخدم وكلمة المرور. iFilter يحترم هذه الإعدادات ولن يسمح بفهرسة PDF.

أنا أبحث عن وسيلة لفهرسة وتفتيش ملفات PDF على الخادم الخاص بي باستخدام ASPX.NET. يبدو أنني عالق بأحد الإجراءات التالية:

  1. لدي بيانات الاعتماد اللازمة لفتح هذه ملفات PDF للحصول على "نسخ" الوصول إلى المحتوى
  2. عند تقديم ملف PDF لأدلي، سيتعين تقديم عنصرين: نسخة كلمة - و - نسخة PDF
  3. لديك المحتوى الكامل الذي تم نسخه إلى بيانات التعريف الخاصة ب PDF، أو على الأقل بعض الكلمات الأساسية. أنا لم تنظر إلى أي نوع من المخاطر التي يمكن أن تشارك هنا. هذا يعني خطوة إضافية للكتاب
  4. حلول واحدة و 2 تعني الحفاظ على نسخة مكررة ... إما على الخادم أو في DB والرجوع إلى الفعلي للتنزيل، برمجيا. هل أي شخص يأتي مع حل لهذا؟ أود أن أفضل قدرات الفهرسة لأنها لا تعني عدم وجود ازدواجية في المحتوى. الحل 3 جذابة إذا كانت بيانات Meta PDF يمكن أن تتعامل مع الكثير من المحتوى وإذا كان الأمان لا يزال سليما. لقد تساءلت أيضا عن الوصول البرنامجي إلى قوات الدفاع الشعبي حيث، عبر C # أو VB، يمكنني استخدام بيانات الاعتماد للحصول على الوصول ... ولكن يبدو أنني عالق.

    هذا هو جهدي آخر خندق لإيجاد حل آخر. سيكون موضع تقدير أي مساعدة.

هل كانت مفيدة؟

المحلول 2

انتهى بي الأمر بالحلول المختلفة تماما.أحببت فكرة استخدام فهرسة MS، لكن أصبحت أسهل بكثير استخدام SQL ولديها المستخدم الذي يقوم بتحميل الكلمات الرئيسية لصق PDF، أو محتوى PDF في مربع نص.ثم SQL يمكن فهرس هذا "العمود" والبامز ... محرك بحث يفعل الباقي.

شكرا للجميع لأخذ الوقت للنظر في هذا واحد.

نصائح أخرى

إذا كان لديك أسماء المستخدمين وكلمات المرور للملفات أكثر من ربما يمكنك فقط فتح الملفات واستخراج النص منها؟

ثم ستتمكن من إنشاء فهرس من البيانات المستخرجة.

p> docotic.pdf ، يمكن للمكتبة التي أنتقلت معها، فتح الملفات المحمية بكلمة مرور لكوبعدويمكن استخراج النص أيضا.يمكن استخراج النص كنص عادي أو منسق ويمكن تقسيم الكلمات أو الأحرف.

يرجى إلقاء نظرة على العينات التالية:

  • تحقق مما إذا كانت وثيقة PDF كلمة المرورالمحمية
  • استخراج النص بالكلمات
مرخصة بموجب: CC-BY-SA مع الإسناد
لا تنتمي إلى StackOverflow
scroll top