Gibt es eine zuverlässige Art und Weise zu bestimmen, ob ein PDF aus einer Powerpoint-Datei erzeugt wurde?

https://stackoverflow.com/questions/1622411

06-07-2019
|

Frage

Wie der Titel schon sagt. Ich frage deshalb, dass wir PDFs in formatierten ASCII-Text-Umwandlung sind (unter Verwendung von pdftotext) und wollen nur diejenigen anzuzeigen, die einigermaßen gesund aussehen.

PPT-Dateien sind in der Regel Text über Bilder haben, diagonal Text und andere Dinge, die nicht sehr gut übersetzen in ASCII, so würden wir sie gerne, um herauszufiltern, wenn wir können.

Lösung

Die Erstellung Anwendung eines PDF in seinen XMP-Metadaten aufgeführt. Sie können dies ganz einfach in Acrobat 9 sehen (und ich glaube, früher): nach File > Properties, klicken Additional Metadata..., dann gehen Sie zu Advanced und es ist sowohl unter XMP Core-Immobilien und PDF-Eigenschaften :

xmp:CreatorTool: Microsoft PowerPoint pdf:Creator: Microsoft PowerPoint

Ich vermute, Sie dies programmatisch finden wollen, so dass Sie eine Bibliothek müssen diese Metadaten zu lesen, die mit Ihrer Sprache funktioniert. Hier ist eine Liste von einigen XMP-Tools.

Andere Tipps

Kurze Antwort:

Nein, ich glaube nicht.

Lange Antwort:

Nein, ich glaube nicht, weil es kann Möglichkeiten, um eine Powerpoint-Datei pdf, zum Beispiel Adobe Acrobat und PDFCreator und viele viele andere zu konvertieren. Es ist bis zu den Konvertern spezifische Informationen in der PDF-Datei eingebettet werden, auch wenn Sie einen Weg finden, Powerpoint-Quelle pdf von einem Konvertiten, die gleiche Methode für andere möglicherweise nicht erkennen arbeiten.

Noch längere Antwort:

Nein, ich glaube nicht, weil die Gründe in der „langen Antwort“ beschrieben. Und ich glaube nicht, die Quelle der PDF Erkennung ist der beste Ansatz für das Problem, das Sie versuchen zu lösen. Nicht nur Powerpoint erzeugt überlappende Text und Bildern. Ich denke, es ist viel besser, das tatsächliche Layout der PDF-Datei zu erfassen. Wenn es Überlagerung von Bild und Text ist, dann tun Sie etwas Filterung oder Vorverarbeitung für die gerecht zu werden.

Ihre Argumentation ist sehr willkürlich - es sicherlich viele PPT-Dateien sind ohne die Funktionen, die Sie beschreiben, und viele PDF-Dateien mit sie, die aus einer anderen Quelle erzeugt wurden .

In der Theorie eine bessere Methode wäre, nur zu erkennen, wenn diese „unerwünschten“ Situationen auftreten. Aber auch wenn das PDF-Format zum Teil geöffnet ist (nur zum Lesen, es scheint, so ist es nicht wirklich ein offenes Format), komplexe Daten wie das Extrahieren wäre unglaublich schwierig sein.

Alle PDF-Dateien können Sie dieses Problem haben, unabhängig von ihrer Quelle. Die meisten Desktop-Publishing-Suiten sind in der Lage PDF ausgibt und werden oft verkauft ihre hohe Qualität und flashier PDF-Präsentationen Prahlerei ...

A „vernünftigere“ Methode wäre, einen PDF-Parser zu verwenden, iTextSharp oder pdfNet ... etc, die Bibliothek Ihrer Wahl, finden Sie alle Bildrechtecke, und alle Textrechtecke, Rechtecken sortieren, und dann sehen, ob es gibt wesentliche Überlappung von Text und Bild Rects - ignorieren Bild zu Bild überlappt. Wenn ja, lehnt die Seite und / oder Dokument.

Das wird nicht perfekt sein, aber zumindest, es wird viele PDFs fangen, die nicht gesund sind, unabhängig von der Quelle. Andere Heuristik hinzufügen würde Farbanalyse umfassen. (D sind die Farben in dem überlappenden Bereich ausreichend unterschiedlich „gesunde“ Ergebnisse zu ermöglichen?)

Viel Glück für Sie

Es könnte seinen Namen in der Schöpfer oder Herstellerinformationen setzen, aber ich habe nicht eine Kopie diese Theorie zu überprüfen mit.

Im Allgemeinen ist es keine leichte Aufgabe (zuverlässig) programmatisch zu bestimmen, wo eine Datei stammt oder wie es beruhte auf seinen Inhalt erzeugt. Immerhin ist eine Datei nur eine Sammlung von Bits.

Wenn Sie eine Menge von Ressourcen aufwenden, um die Heuristik Gebäude, um zu bestimmen, ob eine Datei „einigermaßen vernünftig“ sieht nach Ihren Bedürfnissen, ich würde das eine Aufgabe für die Menschen in Betracht ziehen.

einige Konverter von ppt zu pdf beginnen von PDF Creator in den Kommentaren erhalten.

Ich denke, dass PDF aus den meisten Anwendungen erzeugt die scheinen die gleichen zu sein. Es können haben einige Meta-Daten, die Sie aus der Datei lesen können ...

Lizenziert unter: CC-BY-SA mit Zuschreibung

Nicht verbunden mit StackOverflow