ما هي الطريقة الجيدة لاستخراج النص من ملف PDF باستخدام C# أو ASP الكلاسيكي (VBScript)؟[مغلق]

https://stackoverflow.com/questions/46869

09-06-2019
|

سؤال

هل توجد مكتبة جيدة لاستخراج النص من ملف PDF؟أنا على استعداد لدفع ثمنها إذا اضطررت لذلك.

سيكون الشيء الذي يعمل مع C# أو ASP الكلاسيكي (VBScript) مثاليًا وأحتاج أيضًا إلى أن أكون قادرًا على فصل الصفحات عن ملف PDF.

هذا السؤال كان لديه بعض الأشياء المثيرة للاهتمام، وخاصة pdftotext ولكني أرغب في تجنب الاتصال بتطبيق سطر أوامر خارجي إذا أمكنني ذلك.

المحلول

يمكنك استخدام واجهة IFilter المضمنة في Windows لاستخراج النص والخصائص (المؤلف، العنوان، وما إلى ذلك) من أي نوع ملف مدعوم.إنها واجهة COM لذا يمكنك استخدام مرافق التشغيل المتداخل .NET.

سيتعين عليك أيضًا تنزيل برنامج تشغيل PDF IFilter المجاني من Adobe.

نصائح أخرى

وهنا قائمة جيدة:مكتبات مفتوحة المصدر لـ PDF/C#

معظم هذه البرامج موجهة نحو إنشاء ملفات PDF، ولكن يجب أن تتمتع بإمكانية القراءة أيضًا.

هناك هذا أيضا: iText

لقد لعبت فقط مع iText من قبل.لا شيء يهم.

لقد استخدمنا اطرح مع نتائج جيدة.

مكتبة دوكوتيك.Pdf يمكن استخدامه لاستخراج نص منسق أو عادي من مستندات PDF.

يمكن للمكتبة قراءة مستندات PDF من أي إصدار (حتى أحدث المعايير المنشورة).كما تدعم المكتبة استخراج الصفحات.

روابط لنموذج التعليمات البرمجية:

تنصل:أنا أعمل لدى بائع المكتبة.

إضافة إلى الإجابة المعتمدة:هناك أيضًا حلول تجارية بديلة لتحل محل Adobe IFilter لفهرسة النص (توفير واجهة برمجة التطبيقات المماثلة ولكنها تقدم أيضًا وظائف متميزة إضافية):

برنامج Foxit PDF IFilter:يوفر فهرسة نصية أسرع بكثير مقارنة بمكون Adobe الإضافي.
PDFLib PDF iFilter:يتضمن دعمًا لمستندات PDF التالفة بالإضافة إلى واجهة برمجة التطبيقات الإضافية لتشغيل استعلاماتك الخاصة.

إذا كنت تبحث عن الأداة الوحيدة التي يمكن استخدامها من كل من تطبيقات .NET المُدارة ولغات البرمجة القديمة مثل ASP أو VB6 الكلاسيكية، فهذا هو المكان الذي يتم فيه الإعلان التجاري ByteScout PDF النازع SDK سيكون مناسبًا لأنه يوفر كلاً من .NET وActiveX/COM API.

تنصل:أنا أعمل لدى ByteScout

مرخصة بموجب: CC-BY-SA مع الإسناد

لا تنتمي إلى StackOverflow