如何用Ruby / Anemone / Nokogiri从网站刮掉产品

题

是可以使用Ruby中的海葵和Nokogiri Libs从电子商务网站刮除产品？

我了解如何使用nokogiri从每个产品页面中提取我需要的数据，但我无法弄清楚如何制作Anemone / nokogiri爬网网站并抓住所有产品页面。

向右方向推动将非常感谢

解决方案

我想出了我的问题。首先，海葵似乎并没有爬行所有的页面。这是因为我想要的页面在一个子域名，我不得不告诉银莲花e与主要领域分开爬行。其次是我需要一种方法来确定哪些页面实际上是产品页面（因此需要解析）。我通过解析我想要的一个领域（SKU号码），然后在测试中是一个带有正台表达式的SKU的字段来做这一点。

许可以下： CC-BY-SA 和归因