如何用Ruby / Anemone / Nokogiri从网站刮掉产品
题
是可以使用Ruby中的海葵和Nokogiri Libs从电子商务网站刮除产品?
我了解如何使用nokogiri从每个产品页面中提取我需要的数据,但我无法弄清楚如何制作Anemone / nokogiri爬网网站并抓住所有产品页面。
向右方向推动将非常感谢
解决方案
我想出了我的问题。首先,海葵似乎并没有爬行所有的页面。这是因为我想要的页面在一个子域名,我不得不告诉银莲花e与主要领域分开爬行。其次是我需要一种方法来确定哪些页面实际上是产品页面(因此需要解析)。我通过解析我想要的一个领域(SKU号码),然后在测试中是一个带有正台表达式的SKU的字段来做这一点。
不隶属于 StackOverflow