Pregunta

Me gustaría convertir archivos con extensiones doc / docx / xls / xlsx / pdf a los archivos HTML. ¿Hay alguna manera de hacerlo de una manera sencilla en Solaris utilizando Perl?

¿Fue útil?

Solución

Las bibliotecas de Perl que he utilizado para el procesamiento de archivos de Microsoft Office han sido bastante deficiente, y todavía tienen que encontrar los que lo hacen un buen trabajo de manejar las extensiones de Office 2007 y Office 2010 (por favor, seleccione uno en los comentarios si usted sabe de uno!)

Si usted tiene una PC que ejecuta Microsoft Office, puede utilizar win32ole para controlar la aplicación de Office desde UNIX. Yo he hecho antes con Ruby: http://rubyonwindows.blogspot.com/2007/03/automating -Excel-con-ruby.html

Aquí hay un módulo de Perl para Win32 utilizando OLE: http://metacpan.org/pod/Win32::OLE

Yo personalmente no recomiendo el enfoque OLE porque tiene un montón de dolores de cabeza (como si tuviera que dejar el cargo que se ejecuta en el PC para la secuencia de comandos de Unix a trabajar, Windows Firewall bloqueará casi al azar la secuencia de comandos de Unix que su PC se actualiza con parches).

No he probado esto, pero aquí es un programa Java que va a utilizar OpenOffice y GhostScript hacer conversiones por lotes para usted: http://www.codeproject.com/KB/java/PDFCM.aspx

Otros consejos

Como nota al margen, hay una utilidad llamada xpdf, que convierte archivos PDF a texto . Que ha sido compilado en Solaris, aunque habría que compilar desde la fuente (se puede llamar a la utilidad desde la línea de comandos). Lo he utilizado y es genial.

Más importante , no es una versión modificada de la misma que convertidos pdf a html . Éste no la he probado, pero podría valer la pena intentarlo.

para Excel a HTML -> se puede usar exceltohtml

necesita los siguientes módulos:

use Spreadsheet::ParseExcel;
use File::Find ; use Cwd ; 
Licenciado bajo: CC-BY-SA con atribución
No afiliado a StackOverflow
scroll top