Frage

Ich versuche, eine Python-Funktion zu schreiben, die angesichts der Pfad zu einem Dokument-Datei, die Anzahl der Wörter in diesem Dokument zurückgibt. Das ist ziemlich einfach, mit TXT-Dateien zu tun, und es gibt Werkzeuge, die mir erlauben, zusammen für ein paar komplexere Dokumentenformate unterstützen zu hacken, aber ich möchte eine wirklich umfassende Lösung.

Mit Blick auf OpenOffice.org die py-uno Scripting-Schnittstelle und eine Liste der unterstützten Formate, wäre es ideal, scheinen die Dokumente in einer Maden OOo zu laden und seine Wort-count-Funktion aufrufen. Allerdings kann ich keinen py-uno Tutorials oder Beispielcode finden, die über grundlegendes Dokument Generation gehen, und auch den Code-Schnipsel ich gefunden habe, sind veraltet von einem halben Jahrzehnte und nicht mehr.

Ob von OOo und Uno mit oder nicht, wie kann ich zuverlässig Wortzählungen für Dokumente verschiedenen Formate?

War es hilfreich?

Lösung

laden Sie die Dokumente in einem kopflos OOo   und rufen seine Wortzählungsfunktion

PyODConverter ist ein kürzlich (11-2009) Skript verwenden OOo mehrere Datei zu konvertieren Typen. Mit Blick auf das Skript, hat es grundlegende Laden aller OOo unterstützten Dokumente.

Dies ist, wie Sie OOo als Headless-Dienst starten:

soffice -headless -accept="socket,host=127.0.0.1,port=8100;urp;" -nofirststartwizard

Dann müssen Sie nur noch einen kleinen Bootstrap schreiben, die OOo auf der Kommandozeile aufruft, Ihr Skript ausgeführt wird, dann schließt OOo.


Andere Tipps

Dies könnte nicht die Option für Sie sein, aber in Fall ist es - Sie können auf Google Text & Tabellen Dokumente hochladen und dann im .txt-Format exportieren. Google in der Regel tut sehr schöne Aufgabe für die Konvertierung.

Sie können relevante APIs finden Sie hier: http: //code.google.com/intl/pl/apis/documents/docs/1.0/developers_guide_python.html

Hier finden Sie aktuelle Login, Hochladen und Exportieren von Sektionen.

Lizenziert unter: CC-BY-SA mit Zuschreibung
Nicht verbunden mit StackOverflow
scroll top