PHP 中的 HTML 抓取 [重复]

题

这个问题在这里已经有答案了：

我一直在使用正则表达式在 PHP 中进行一些 HTML 抓取。这可行，但结果是挑剔且脆弱的。有没有人使用过任何提供更强大解决方案的软件包？配置驱动的解决方案将是理想的，但我并不挑剔。

解决方案

我会推荐 PHP 简单 HTML DOM 解析器从页面中抓取 HTML 后。它支持无效的 HTML，并提供了一种非常简单的方法来处理 HTML 元素。

其他提示

如果您正在抓取的页面是有效的 X(HT)ML，则以下任意一个 PHP 的内置 XML 解析器会做。

我在使用 PHP 库进行抓取方面还没有取得太大成功。如果你喜欢冒险，你可以尝试一下简单的htmldom. 。我会推荐赫普里科特对于红宝石或美丽的汤对于Python来说，两者都是 出色的 HTML 解析器。

我也建议“简单的HTML DOM PARSER”。这是一个不错的选择，特别是如果您熟悉JQuery或JavaScript选择器，那么您会发现自己在家。

和我一起工作很开心 htmlSQL, ，这并不是一个高端解决方案，但使用起来非常简单。

使用 PHP 进行 HTML 抓取，我建议使用 cURL + regexp 或 cURL + 一些 DOM 解析器，尽管我个人使用 cURL + regexp。如果您对正则表达式有深入的了解，有时它实际上会更准确。

我的成绩非常好简单的 Html DOM 解析器上面也提到了。然后是PHP 的整洁扩展以及效果也非常好。

我必须在主机 1 和 1 上使用curl。

http://www.quickscrape.com/ 这就是我使用 Simple DOM 类想到的！

许可以下： CC-BY-SA 和归因