أداء التعرف الضوئي على الحروف على لPDF من كولد فيوجن باستخدام مكتبة جافا أو. NET؟

https://stackoverflow.com/questions/496875

20-08-2019
|

سؤال

وأنا أتطلع لاتخاذ PDF واستخراج أي نص منه. وبعد ذلك تريد أن تجعله متاحا باستخدام البحث فيرتي متاح كولد فيوجن لبحث محتوياته.

هل هناك أي المكتبات الى ان هناك القيام بذلك بشكل جيد بالفعل؟ وأنا بما جافا أو صافي (يفضل جافا) المكتبات في نطاق لأنها يمكن استدعاؤها من CF.

وأن أي أفكار أو تجارب موضع تقدير كبير ... شكرا!

وتحرير: ملفات PDF الفهرسة تعمل عند تضمين النص في PDF بقدر ما أعرف مع قوات التحالف. ملفات PDF أواجه للتعامل مع ديها النص الممسوح ضوئيا كصورة.

المحلول

إذا كان لديك القدرة على تشغيل البرمجيات الخاصة بك (أي مخصص / VPS) ثم هل يمكن تحقيق باستخدام <لأ href = "http://code.google.com/p/tesseract-ocr/" يختلط = "نوفولو noreferrer "> تسراكت OCR مع cfexecute لتحويل ملفات PDF إلى نص؟

نصائح أخرى

وفيرتي أن تكون قادرة على فهرسة الملفات PDF بشكل افتراضي:

http://livedocs.adobe.com/coldfusion/6 /Developing_ColdFusion_MX_Applications_with_CFML/indexSearch2.htm#1142322

وراي كامدن لديه سلسلة ثمانية أجزاء على <لأ href = "http://www.coldfusionjedi.com/index.cfm/2007/7/9/ColdFusion-8-Working-with-PDFs-Part-1 "يختلط =" نوفولو noreferrer "> العمل مع ملفات PDF في كولد فيوجن 8 .

الجزء 7 من سلسلة يغطي باستخدام DDX للحصول على النص من قوات الدفاع الشعبي.

وليس متأكد من هذا ستعمل مع OCR الاحتياجات الخاصة بك على الرغم من، ولكن قد يكون لا يزال يستحق النظر.

وعلى صعيد الدور ذات الصلة، وجدت وظيفة أنيق جدا حول ترميز وقراءة الباركود 2D مصفوفة في كولد فيوجن.

http://www.stillnetstudios.com/2007/ 12/15 / 2D-الباركود-كولد فيوجن /

وهذا قد يحل بعض القضايا بلدي في الحاجة إلى استخراج المعلومات المشفرة، ولكنني ما زلت بعد الجسم من النص.

وفيما يتعلق tessnet، وجدت نسخة صافي جدا. http://www.pixel-technology.com/freeware/tessnet2/ إذا أنا يمكن أن تغذي أصلا في PDF بدلا من المشاجرات ..:)

مرخصة بموجب: CC-BY-SA مع الإسناد

لا تنتمي إلى StackOverflow