是可以使用Ruby中的海葵和Nokogiri Libs从电子商务网站刮除产品?

我了解如何使用nokogiri从每个产品页面中提取我需要的数据,但我无法弄清楚如何制作Anemone / nokogiri爬网网站并抓住所有产品页面。

向右方向推动将非常感谢

有帮助吗?

解决方案

我想出了我的问题。首先,海葵似乎并没有爬行所有的页面。这是因为我想要的页面在一个子域名,我不得不告诉银莲花e与主要领域分开爬行。其次是我需要一种方法来确定哪些页面实际上是产品页面(因此需要解析)。我通过解析我想要的一个领域(SKU号码),然后在测试中是一个带有正台表达式的SKU的字段来做这一点。

许可以下: CC-BY-SA归因
不隶属于 StackOverflow
scroll top