这个问题在这里已经有答案了:

我一直在使用正则表达式在 PHP 中进行一些 HTML 抓取。这可行,但结果是挑剔且脆弱的。有没有人使用过任何提供更强大解决方案的软件包?配置驱动的解决方案将是理想的,但我并不挑剔。

有帮助吗?

解决方案

我会推荐 PHP 简单 HTML DOM 解析器 从页面中抓取 HTML 后。它支持无效的 HTML,并提供了一种非常简单的方法来处理 HTML 元素。

其他提示

如果您正在抓取的页面是有效的 X(HT)ML,则以下任意一个 PHP 的内置 XML 解析器 会做。

我在使用 PHP 库进行抓取方面还没有取得太大成功。如果你喜欢冒险,你可以尝试一下 简单的htmldom. 。我会推荐 赫普里科特 对于红宝石或 美丽的汤 对于Python来说,两者都是 出色的 HTML 解析器。

我也建议“简单的HTML DOM PARSER”。这是一个不错的选择,特别是如果您熟悉JQuery或JavaScript选择器,那么您会发现自己在家。

我过去甚至在博客上谈到过它。

和我一起工作很开心 htmlSQL, ,这并不是一个高端解决方案,但使用起来非常简单。

使用 PHP 进行 HTML 抓取,我建议使用 cURL + regexp 或 cURL + 一些 DOM 解析器,尽管我个人使用 cURL + regexp。如果您对正则表达式有深入的了解,有时它实际上会更准确。

我的成绩非常好 简单的 Html DOM 解析器 上面也提到了。然后是PHP 的整洁扩展 以及效果也非常好。

我必须在主机 1 和 1 上使用curl。

http://www.quickscrape.com/ 这就是我使用 Simple DOM 类想到的!

许可以下: CC-BY-SA归因
不隶属于 StackOverflow
scroll top