从一组 HTML 文件中提取表格内容的最佳方法是什么？

https://stackoverflow.com/questions/68691

09-06-2019
|

题

使用 TIDY 清理充满 HTML 文件的文件夹后，如何提取表格内容以进行进一步处理？

解决方案

取决于您想要进行哪种处理。您可以告诉 Tidy 生成 XHTML，这是 XML 的一种类型，这意味着您可以在结果上使用所有常用的 XML 工具，例如 XSLT 和 XQuery。

如果您想在 Microsoft Excel 中处理它们，那么您应该能够将表格从 HTML 中分离出来并将其放入一个文件中，然后在 Excel 中打开该文件：它很乐意将 HTML 表格转换为电子表格页面。然后您可以将其另存为 CSV 或 Excel 工作簿等。（您甚至可以在 Web 服务器上使用它——返回一个 HTML 表，但设置 Content-Type 标头至 application/ms-vnd.excel:Excel 将打开并导入表格，然后将其转换为电子表格。）

如果您希望 CSV 馈入数据库，那么您可以像以前一样通过 Excel，或者如果您想自动化该过程，您可以编写一个程序，使用您选择的 XML 导航 API 来迭代表行和将它们保存为 CSV。Python 的 Elementtree 和 CSV 模块将使这变得非常简单。

其他提示

我过去曾使用 BeautifulSoup 来做这样的事情，并取得了巨大的成功。

在查看了建议后，我最终使用了 html单元.

使用HTMLUNIT，我能够自定义Java代码以打开文件夹中的每个HTML文件，导航到表标签，查询每个列内容并提取我创建CSV文件所需的数据。

在.NET中你可以使用 HTML敏捷包.

看到这个上一个问题在 StackOverflow 上了解更多信息。

如果您想从 HTML 标记中提取内容，您应该使用某种类型的 HTML 解析器。为此，有很多东西可以满足您的需求，这里有两个：

http://jtidy.sourceforge.net/
http://htmlparser.sourceforge.net/

迭代文本并使用正则表达式:)

http://www.knowledgehouse.sg

许可以下： CC-BY-SA 和归因

不隶属于 StackOverflow