¿Cuál es la mejor manera de extraer el contenido de una tabla de un grupo de archivos HTML?

https://stackoverflow.com/questions/68691

09-06-2019
|

Pregunta

Después de limpiar una carpeta llena de archivos HTML con TIDY, ¿cómo se puede extraer el contenido de las tablas para su posterior procesamiento?

Solución

Depende del tipo de procesamiento que quieras hacer.Puedes decirle a Tidy que genere XHTML, que es un tipo de XML, lo que significa que puedes usar todas las herramientas XML habituales como XSLT y XQuery en los resultados.

Si desea procesarlos en Microsoft Excel, entonces debería poder cortar la tabla del HTML y colocarla en un archivo, luego abrir ese archivo en Excel:felizmente convertirá una tabla HTML en una página de hoja de cálculo.Luego puede guardarlo como CSV o como un libro de Excel, etc.(Incluso puedes usar esto en un servidor web: devolver una tabla HTML pero configurar el Content-Type encabezado a application/ms-vnd.excel:Excel abrirá e importará la tabla y la convertirá en una hoja de cálculo).

Si desea que CSV se introduzca en una base de datos, puede utilizar Excel como antes, o si desea automatizar el proceso, puede escribir un programa que utilice la API de navegación XML de su elección para iterar las filas de la tabla y guárdelos como CSV.Los módulos Elementtree y CSV de Python harían esto bastante fácil.

Otros consejos

He usado BeautifulSoup para este tipo de cosas en el pasado con gran éxito.

Después de revisar las sugerencias, terminé usando Unidad HTML.

Con htmlunit, pude personalizar el código Java para abrir cada archivo HTML en la carpeta, navegar a la etiqueta de la tabla, consultar cada contenido de columna y extraer los datos que necesitaba para crear un archivo CSV.

En .NET podrías usar HTMLAgilityPack.

Mira esto Pregunta anterior en StackOverflow para obtener más información.

Si desea extraer el contenido del marcado HTML, debe utilizar algún tipo de analizador HTML.Con ese fin, hay muchos disponibles y aquí hay dos que podrían satisfacer sus necesidades:

http://jtidy.sourceforge.net/
http://htmlparser.sourceforge.net/

iterar a través del texto y usar expresiones regulares :)

http://www.knowledgehouse.sg

Licenciado bajo: CC-BY-SA con atribución

No afiliado a StackOverflow