هل هناك طريقة يمكن الاعتماد عليها لتحديد ما إذا كان ملف PDF تم إنشاؤها من Powerpoint الملف ؟

https://stackoverflow.com/questions/1622411

06-07-2019
|

سؤال

كما يقول العنوان.سبب سؤالي هو أننا تحويل ملفات Pdf إلى تنسيق نص ASCII (باستخدام pdftotext) فقط ترغب في عرض تلك التي تبدو معقولة عاقل.

ملفات PPT تميل إلى أن يكون النص على الصور, قطري نص وغيرها من الأشياء التي لا تترجم إلى ASCII بشكل جيد للغاية ، لذلك نود أن تصفية لهم اذا كنا نستطيع.

المحلول

إنشاء تطبيق PDF معروض في XMP الفوقية.يمكنك أن ترى هذا بسهولة تامة في Acrobat 9 (وأعتقد في وقت سابق):انتقل إلى File > Properties, انقر فوق Additional Metadata..., ثم انتقل إلى Advanced وانها المدرجة تحت كل XMP الخصائص الأساسية و PDF خصائص:

xmp:CreatorTool: Microsoft PowerPoint
pdf:Creator: Microsoft PowerPoint

انا التخمين كنت تريد أن تجد هذا برمجيا, لذلك سوف تحتاج إلى العثور على مكتبة لقراءة هذه الفوقية التي تعمل مع اللغة الخاصة بك. هنا قائمة ببعض XMP الأدوات.

نصائح أخرى

والجواب باختصار:

لا، أنا لا أعتقد ذلك.

والإجابة الطويلة:

لا، أنا لا أعتقد ذلك، لأن هناك قد طرق لتحويل ملف PowerPoint إلى قوات الدفاع الشعبي، على سبيل المثال أدوبي أكروبات وسي كلينر وغيرها الكثير الكثير. والامر متروك المحولات لتضمين معلومات محددة في ملف PDF، حتى إذا وجدت وسيلة للكشف عن قوات الدفاع الشعبي باور بوينت المصدر من تحويل واحد، نفس الأسلوب قد لا تعمل لآخر.

وحتى يعد الجواب:

لا، أنا لا أعتقد ذلك، بسبب من الأسباب الموضحة في قسم "الجواب طويل". وأنا لا أعتقد كشف مصدر PDF هو أفضل نهج لهذه المشكلة التي تحاول حلها. ليس فقط باور بوينت تنتج النص المتراكبة والصور. وأعتقد أنه أفضل بكثير للكشف عن التخطيط الفعلي للملف PDF. إذا كان هناك تراكب الصورة والنص، ثم عليك القيام ببعض تصفية أو ما قبل المعالجة لتلبية ذلك.

والمنطق الخاص بك هو تعسفي جدا - هناك بالتأكيد الكثير من ملفات PPT <م> بدون الميزات التي تصف، والكثير من ملفات PDF <م> مع لهم، التي تم إنشاؤها من مصدر آخر .

في نظرية أن أفضل طريقة أن يكون مجرد لكشف عندما تحدث هذه الحالات "غير المرغوب فيها". ومع ذلك، على الرغم من أن شكل PDF مفتوح جزئيا (فقط للقراءة، على ما يبدو، حتى انها ليست حقا شكل مفتوح)، واستخراج البيانات المعقدة من هذا القبيل سيكون من الصعب للغاية.

جميع ملفات PDF يمكن أن يكون هذه المشكلة بغض النظر عن مصدرها. معظم الأجنحة النشر المكتبي قادرة على إخراج PDF وغالبا ما تباع التفاخر جودتها العالية وبهرجة PDF العروض ...

وA "تعقلا" الطريقة سيكون لاستخدام محلل PDF، ITextSharp، أو pdfNet ... الخ، واستخدام المكتبة من اختيارك، تجد كل المستطيلات صورة، وجميع المستطيلات النص، نوع المستطيلات، ومن ثم معرفة ما إذا كان هناك تداخل كبير من النص والصورة rects - تجاهل الصورة لتتداخل الصورة. إذا كان الأمر كذلك، رفض الصفحة و / أو وثيقة.

وهذا لن يكون مثاليا، ولكن على الأقل انه سيكون للقبض على العديد من ملفات PDF التي لا عاقل، بغض النظر عن المصدر. أن الاستدلال أخرى لإضافة يشمل تحليل اللون. (أي هي الألوان في المنطقة متداخلة مختلفة بما فيه الكفاية للسماح النتائج "عاقل"؟)

وحظا سعيدا لك

وقد وضعت اسمها في المبدع أو منتج من المعلومات، ولكن ليس لدي نسخة للتأكد من هذه النظرية.

في عام، فإنه ليست مهمة سهلة لتحديد برمجيا (موثوق) حيث جاء ملف من أو كيف ولدت على أساس أنها محتوياته. بعد كل شيء، ملف هو مجرد مجموعة من البتات.

واذا لم يكن هناك الكثير من الموارد للإنفاق بناء الاستدلال لتحديد ما إذا كان ملف يبدو "عاقل معقول" وفقا للاحتياجات الخاصة بك، وأود أن تنظر في هذه المهمة لبني البشر.

وبعض من تحويل باور بوينت لقوات الدفاع الشعبي الحفاظ الخالق في تصريحات في البدء من قوات الدفاع الشعبي.

وأعتقد أن يبدو PDF ولدت من معظم التطبيقات لتكون هي نفسها. أنه قد لدينا بعض البيانات الفوقية التي يمكنك القراءة من الملف ...

مرخصة بموجب: CC-BY-SA مع الإسناد

لا تنتمي إلى StackOverflow