Frage

Gibt es eine programmatische Art und Weise Gleichungen zu extrahieren (und möglicherweise Bilder) von einem MS Word-Dokument? Ich habe alle über gegoogelt, aber noch etwas zu finden, dass ich meine Zähne in und arbeiten von sinken kann. Wenn möglich, würde Ich mag Lage sein, dies zu tun, mit VB.NET oder C #, aber ich kann genug von jeder Sprache abholen, um einen DLL-Hack aus. Dank!

EDIT:. Gerade jetzt an Ich suche die Gleichungen von Word 2003 zu extrahieren, aber wenn es bis 2007 / Open XML Konvertierung erforderlich ist, das ist in Ordnung

War es hilfreich?

Lösung

Ich weiß nicht, ob irgendetwas davon wird helfen, aber das Objektmodell in Word 2000/2003 hat eine InlineShapes Sammlung als Teil des Document Objekts, die eingebetteten Bilder und möglicherweise ähnliche Objekte wie Gleichungen darstellt.

Einige VBA-Code auf das erste Element in die Zwischenablage zu kopieren, die Sie ihnen helfen könnte extrahieren:

ThisDocument.InlineShapes.Items(1).Select
Selection.Copy

Es ist zugänglich in .NET zu, MSDN Link .

Andere Tipps

Was Word-Format sind Ihre Dokumente in? Wenn sie in Open XML (Dateiendung .docx) sind, könnten Sie die Open XML SDK von Microsoft Bildern zu extrahieren und eingebetteten Inhalt.

Eine Open XML-Datei ist nichts anderes als ein ZIP-Archiv eine spezielle Struktur verwendet wird. Sie werden Beispiele im SDK finden, wie Teile dieses ZIP-Archiv zuzugreifen. Eigentlich könnte man jede Zip-fähige Bibliothek verwenden, um die Inhalte aus dem Dokumentenpaket zu extrahieren.

Wenn die Dokumente verwenden immer noch die älteren Binärformat sind die Dinge ein wenig komplizierter. Ich denke, der einfachste Weg, um die Dokumente zu dem Open XML-Format zu konvertieren wäre. Es gibt mehrere Möglichkeiten, dies zu tun:

  • Holen Sie sich das freie und offene b2xtranslator von Source, die Sie C # DLL-Dateien für die Dateikonvertierung bietet.
  • Installieren von Microsoft Compatibility Pack und verwenden Sie die folgende Befehlszeile für die Konvertierung:

    "C:\Program Files\Microsoft Office\Office12\wordconv.exe" -oice -nme input\_file output_file

Dabei gilt input_file und output_file müssen vollständige Pfadnamen sein.

Versuchen Sie, bei der Suche Wort-to-Latex Konverter. Es erfordert das .NET Framework und obwohl die Quelle nicht geöffnet noch der Autor nicht laden Fragen zu diesem Thema.

Lizenziert unter: CC-BY-SA mit Zuschreibung
Nicht verbunden mit StackOverflow
scroll top