使用 TIDY 清理充满 HTML 文件的文件夹后,如何提取表格内容以进行进一步处理?

有帮助吗?

解决方案

取决于您想要进行哪种处理。您可以告诉 Tidy 生成 XHTML,这是 XML 的一种类型,这意味着您可以在结果上使用所有常用的 XML 工具,例如 XSLT 和 XQuery。

如果您想在 Microsoft Excel 中处理它们,那么您应该能够将表格从 HTML 中分离出来并将其放入一个文件中,然后在 Excel 中打开该文件:它很乐意将 HTML 表格转换为电子表格页面。然后您可以将其另存为 CSV 或 Excel 工作簿等。(您甚至可以在 Web 服务器上使用它——返回一个 HTML 表,但设置 Content-Type 标头至 application/ms-vnd.excel:Excel 将打开并导入表格,然后将其转换为电子表格。)

如果您希望 CSV 馈入数据库,那么您可以像以前一样通过 Excel,或者如果您想自动化该过程,您可以编写一个程序,使用您选择的 XML 导航 API 来迭代表行和将它们保存为 CSV。Python 的 Elementtree 和 CSV 模块将使这变得非常简单。

其他提示

我过去曾使用 BeautifulSoup 来做这样的事情,并取得了巨大的成功。

在查看了建议后,我最终使用了 html单元.

使用HTMLUNIT,我能够自定义Java代码以打开文件夹中的每个HTML文件,导航到表标签,查询每个列内容并提取我创建CSV文件所需的数据。

在.NET中你可以使用 HTML敏捷包.

看到这个 上一个问题 在 StackOverflow 上了解更多信息。

如果您想从 HTML 标记中提取内容,您应该使用某种类型的 HTML 解析器。为此,有很多东西可以满足您的需求,这里有两个:

http://jtidy.sourceforge.net/
http://htmlparser.sourceforge.net/

迭代文本并使用正则表达式:)

http://www.knowledgehouse.sg

许可以下: CC-BY-SA归因
不隶属于 StackOverflow
scroll top