Pregunta

Estoy intentando escribir una función de Python que, dada la ruta de acceso a un archivo de documento, devuelve el número de palabras en el documento. Esto es bastante fácil de hacer con los archivos .txt, y hay herramientas que me permiten cortar el apoyo a unos formatos de documentos más complejos juntos, pero quiero una solución realmente completa.

En cuanto a la interfaz de scripting py-Uno de OpenOffice.org y la lista de formatos soportados, parecería ideal para cargar los documentos en un OOo sin cabeza y llamar a su función de número de palabras. Sin embargo, no puedo encontrar tutoriales PY-uno o código de ejemplo que van más allá de la generación de documentos básicos, e incluso los fragmentos de código que he encontrado están fuera de fecha por una década y media ya no funcionan.

Ya sea mediante el uso de OOo y Uno o no, ¿cómo puedo conseguir fiables de palabras recuentos de documentos de varios formatos?

¿Fue útil?

Solución

cargar los documentos en un OOo sin cabeza   y llamar a su función de número de palabras

PyODConverter es un (11-2009) guión reciente de usar OOo para convertir múltiples archivos tipos. En cuanto a la secuencia de comandos, tiene la carga básica de todos los documentos de OOo compatible.

Esta es la forma de empezar a OOo como un servicio sin cabeza:

soffice -headless -accept="socket,host=127.0.0.1,port=8100;urp;" -nofirststartwizard

A continuación, sólo tiene que escribir un pequeño programa previo que llama OOo en la línea de comandos, se ejecuta la secuencia de comandos, a continuación, cierra OOo.


Otros consejos

Esto podría no ser la opción para usted, pero en caso de que sea - se puede cargar documentos en Google Docs y luego exportar en formato .txt. Google suele hacer muy buen trabajo para la conversión.

Puede encontrar las API relevantes aquí: http: //code.google.com/intl/pl/apis/documents/docs/1.0/developers_guide_python.html

Tome una mirada al iniciar la sesión, subir y exportar secciones.

Licenciado bajo: CC-BY-SA con atribución
No afiliado a StackOverflow
scroll top